Профессиональная конференция разработчиков высоконагруженных систем

Выбор стримингового фреймворка в 2024 году.

BigData и машинное обучение

ETL
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Spark, Flink, Nifi или что-то другое - какой стриминговый фреймворк выбрать в текущем году? Из доклада вы узнаете основные критерии для выбора, на что обращать особое внимание. И все это на основе практического опыта.

Целевая аудитория

Будет интересно тем, кто собирается вливаться в стриминг или думает, правильный ли стриминговый фреймворк выбрал.

Тезисы

Рано или поздно в компании, у которой есть DWH, возникает потребность считать витрины/отчеты/мониторинг в близком к реальному времени(или быстрее настолько, что текущие системы не справятся). И нужно выбрать подходящую для этого технологию.

Apache Spark Streaming лучше подойдёт, если у вас нет потребности в real time и миллисекундных задержках. Для sub-second задержек лучше подойдёт Apache Flink. Но не Spark и Flink едиными. Есть например Apache Storm, у которого сейчас довольно мало контрибуций, но при этом он всё ещё релизится. Или Apache Samza, о которой есть доклад разработчиков из Одноклассников. Мне кажется, что и её будущее предрешено, учитывая мизерное количество новых коммитов. Можно ещё попробовать Kafka Streams, но тогда управление ресурсами это уже ваша задача.

А как обстоят дела с решением реальных задач? Кейсы, которые часто решают на стриминговой платформе - объединение(join) двух потоков. Spark и Flink справятся с этой задачей, но сделают это по-разному.

Это и не только обсудим на докладе.

Максим Буйлин

Тинькофф

11+ лет занимаюсь разработкой, преимущественно на Java, но была и Scala/Bash/Javascript и даже Groovy.
Последние 7 лет занимался дата инженерией на Hadoop и Spark, но сейчас переключился на Flink.

Тинькофф

Тинькофф

Видео