Spark: один для всего?

BigData и инфраструктура машинного обучения (data engineering)

ETL
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Пользователи Spark. Архитекторы и руководители, участвующие в развитии корпоративной дата-платформы.

Тезисы

Spark задумывался как движок общего назначения, способный решать различные задачи обработки данных. Появившись более десяти лет назад, он застал существенные изменения в дата-ландшафте: усовершенствовалось железо, стали стандартом новые форматы хранения, изменился характер нагрузок. Всё это меняет контекст применимости Spark сегодня.

В этом докладе мы рассмотрим вычислительную модель Spark и обсудим её преимущества и ограничения на примере ключевых сценариев: ETL, интерактивные запросы и другие. Выясним, насколько Spark соответствует современным требованиям и уместен ли как универсальный движок в свете появляющихся альтернатив.

Дата-инженер (сначала в SberDevices, сейчас в Ozon). Интересуюсь внутренним устройством вычислительных движков, баз данных и систем хранения, а также тем, как эти технологии формируют современную инфраструктуру и процессы.

Видео