Как быстро Join-ить датафреймы с геоданными на Apache Sedona. При чем здесь DataSkew, деревья и RDD.
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Боремся с длительными джоинами Spark датафреймов с геоданными в Apache Sedona (с условием в виде пространственного предиката типа ST_Contains) и побеждаем! Выясняем, почему здесь часто возникает перекос данных (Data Skew) и как его ликвидировать. Пишем инструмент для быстрых Spatial Joins.
Окончил НИЯУ МИФИ. С 2019 года работаю в ИТ. В настоящее время являюсь Data-инженером в компании "MWS (МТС Web Services)", занимаюсь обработкой гео-данных с использованием Apache Spark, Clickhouse и других технологий.
Видео
Другие доклады секции
Data Engineering