Как быстро Joinить датафреймы с геоданными на Apache Sedona и при чем здесь DataSkew, деревья и RDD

Data Engineering

Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад показывает, как правильная пространственная индексация ускоряет джоины в Apache Sedona в десятки раз. Разбираем Spark DataFrame и Spatial RDD, виды сеток и индексов, визуализируем перекосы данных и ищем их причины в Spark UI. Создаём кастомный инструмент для Spatial Joins и внедряем в прод.

Целевая аудитория

Data-инженеры, Data-аналитики (особенно - работающие в области Гео)

Тезисы

Боремся с длительными джоинами Spark датафреймов с геоданными в Apache Sedona (с условием в виде пространственного предиката типа ST_Contains) и побеждаем! Выясняем, почему здесь часто возникает перекос данных (Data Skew) и как его ликвидировать. Пишем инструмент для быстрых Spatial Joins.

Павел Молчанов

МТС Web Services (MWS)

Окончил НИЯУ МИФИ. С 2019 года работаю в ИТ. В настоящее время являюсь Data-инженером в компании "МТС Web Services (MWS)", занимаюсь обработкой гео-данных с использованием Apache Spark, Clickhouse и других технологий.

Видео

Другие доклады секции

Data Engineering