Spark задумывался как движок общего назначения, способный решать различные задачи обработки данных. Появившись более десяти лет назад, он застал существенные изменения в дата-ландшафте: усовершенствовалось железо, стали стандартом новые форматы хранения, изменился характер нагрузок. Все это меняет контекст применимости Spark сегодня.
В этом докладе мы рассмотрим вычислительную модель Spark и обсудим ее преимущества и ограничения на примере ключевых сценариев: ETL, интерактивные запросы и другие. Выясним, насколько Spark соответствует современным требованиям и уместен ли как универсальный движок в свете появляющихся альтернатив.