Spark: один для всего?

BigData и инфраструктура машинного обучения (data engineering)

ETL
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Спикер много лет изучал исходный код Spark и поделится своим мнением о подходах, которые лежат в основе модели вычислений платформы. Он расскажет о том, как понимание единой модели вычислений Spark позволяет писать запросы лучше и о том, что предлагают смежные фреймворки.

Целевая аудитория

Пользователи Spark. Архитекторы и руководители, участвующие в развитии корпоративной дата-платформы.

Тезисы

Spark задумывался как движок общего назначения, способный решать различные задачи обработки данных. Появившись более десяти лет назад, он застал существенные изменения в дата-ландшафте: усовершенствовалось железо, стали стандартом новые форматы хранения, изменился характер нагрузок. Все это меняет контекст применимости Spark сегодня.

В этом докладе мы рассмотрим вычислительную модель Spark и обсудим ее преимущества и ограничения на примере ключевых сценариев: ETL, интерактивные запросы и другие. Выясним, насколько Spark соответствует современным требованиям и уместен ли как универсальный движок в свете появляющихся альтернатив.

Дата-инженер (сначала в SberDevices, сейчас в Ozon). Интересуется внутренним устройством вычислительных движков, баз данных и систем хранения, а также тем, как эти технологии формируют современную инфраструктуру и процессы.

Видео