От UDF к BROADCASTJOIN и обратно. История одной SPARK-оптимизации
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В докладе покажу пример поэтапного улучшения решения, на первый взгляд несложной задачи, с сопутствующими «граблями», в ходе которого осваиваем понимание плана запроса, преодолеваем страх писать на Scala, даже если проект на PySpark, убеждаемся в такой себе производительности Python UDF.
Senior Data Engineer
МТС Диджитал
Видео
Другие доклады секции
BigData и инфраструктура машинного обучения (data engineering)