Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

От UDF к BROADCASTJOIN и обратно. История одной SPARK-оптимизации

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Целевая аудитория

Инженеры данных, Архитекторы данных, Разработчики, Администраторы баз данных

Тезисы

В докладе покажу пример поэтапного улучшения решения, на первый взгляд несложной задачи, с сопутствующими «граблями», в ходе которого осваиваем понимание плана запроса, преодолеваем страх писать на Scala, даже если проект на PySpark, убеждаемся в такой себе производительности Python UDF.

Павел Молчанов

МТС Диджитал

Senior Data Engineer

МТС Диджитал

МТС — одна из ведущих экосистемных компаний России. Предоставляет услуги мобильной и фиксированной связи, решения в области объединенных коммуникаций, интернета вещей, обработки данных, облачных вычислений и кибербезопасности. Штат IT-специалистов компании превышает 8 000 человек.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)