Как быстро Join-ить датафреймы с геоданными на Apache Sedona. При чем здесь DataSkew, деревья и RDD.

Data Engineering

Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Data-инженеры, Data-аналитики (особенно - работающие в области Гео)

Тезисы

Боремся с длительными джоинами Spark датафреймов с геоданными в Apache Sedona (с условием в виде пространственного предиката типа ST_Contains) и побеждаем! Выясняем, почему здесь часто возникает перекос данных (Data Skew) и как его ликвидировать. Пишем инструмент для быстрых Spatial Joins.

Павел Молчанов

MWS (МТС Web Services)

Окончил НИЯУ МИФИ. С 2019 года работаю в ИТ. В настоящее время являюсь Data-инженером в компании "MWS (МТС Web Services)", занимаюсь обработкой гео-данных с использованием Apache Spark, Clickhouse и других технологий.

Видео