Что нужно для потоковой обработки данных. Технологии, которыми можно закрыть потребности в стриминге.

Оффтоп

Инфраструктура как сервис (IaaS), платформы как сервис (PaaS)
ETL
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад будет полезен тем, что сначала декомпозирует архитектуру стриминга, потом анализирует преимущества и недостатки различных решений и завершает сборкой нескольких вариантов, которые в индустрии называются референсными. Полезно будет и архитекторам, и разработчикам.

Целевая аудитория

Доклад будет полезен тем, кто вливается в потоковую обработку данных. Особенно, если вам поставили задачу - наладить потоковую обработку данных в вашей компании. Поговорим о в задачах в стриминге. И технологиях, которые призваны облегчить вашу жизнь.

Тезисы

Основные задачи, которые нужно решать полноценной стриминговой платформе - это хранение событий, доставка этих событий до хранилища, ну и конечно обработка c возможность хранения состояния(так называемый stateful processing). Разберём как может выглядеть архитектура потоковой обработки данных на референсах от AWS и Microsoft. И построим свою архитектуру из open-source компонент, таких как Kafka Connect, Apache Kafka и Apache Flink.

Максим Буйлин

Райффайзен Банк

11+ лет занимается разработкой, преимущественно на Java, но была и Scala/Bash/Javascript и даже Groovy.
Последние 7 лет занимался дата-инженерией на Hadoop и Spark, но сейчас переключился на Flink.

Видео