От UDF к Broadcast Join и обратно. История одной Spark-оптимизации

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Дата-инженеры МТС работают с огромными объемами данных: типичная витрина оперирует более чем 10 миллиардами (!!!) строк в день. Это история о том, как сделать работу с данными чуть быстрее: от реализации «в лоб» на Python UDF к версии на Scala и, наконец, к написанию быстрого SQL.

Целевая аудитория

Инженеры данных, архитекторы данных, разработчики, администраторы баз данных.

Тезисы

В докладе покажу пример поэтапного улучшения решения, на первый взгляд, несложной задачи, с сопутствующими «граблями», в ходе которого осваиваем понимание плана запроса, преодолеваем страх писать на Scala, даже если проект на PySpark, убеждаемся в такой себе производительности Python UDF.

Павел Молчанов

МТС Диджитал

Senior Data Engineer/

МТС Диджитал

МТС — мультисервисная цифровая экосистема и ведущий телеком-оператор в России. Компания развивает сервисы и продукты в сфере больших данных, искусственного интеллекта, облачного хранения, медиа и финансов, телекоммуникаций. Штат IT-специалистов превышает 9,5 тыс. человек.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)