Как быстро join'ить датафреймы с геоданными на Apache Sedona и при чем здесь DataSkew, деревья и RDD

Data Engineering

Обработка данных

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад показывает, как правильная пространственная индексация ускоряет джоины в Apache Sedona в десятки раз. Разбираем Spark DataFrame и Spatial RDD, виды сеток и индексов, визуализируем перекосы данных и ищем их причины в Spark UI. Создаем кастомный инструмент для Spatial Joins и внедряем в прод.

Целевая аудитория

Data-инженеры, Data-аналитики (особенно — работающие в области гео).

Тезисы

Боремся с длительными джоинами Spark датафреймов с геоданными в Apache Sedona (с условием в виде пространственного предиката типа ST_Contains) и побеждаем! Выясняем, почему здесь часто возникает перекос данных (Data Skew) и как его ликвидировать. Пишем инструмент для быстрых Spatial Joins.

Павел Молчанов

МТС Web Services (MWS)

Окончил НИЯУ МИФИ. С 2019 года работает в IT. В настоящее время является Data-инженером в компании «МТС Web Services (MWS)», занимается обработкой геоданных с использованием Apache Spark, Clickhouse и других технологий.