Что нужно для потоковой обработки данных. Технологии, которыми можно закрыть потребности в стриминге

Оффтоп

Инфраструктура как сервис (IaaS), платформы как сервис (PaaS)
ETL
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад будет полезен тем, что сначала декомпозирует архитектуру стриминга, потом анализирует преимущества и недостатки различных решений и завершает сборкой нескольких вариантов, которые в индустрии называются референсными. Полезно будет и архитекторам, и разработчикам.

Целевая аудитория

Доклад будет полезен тем, кто вливается в потоковую обработку данных. Особенно, если вам поставили задачу — наладить потоковую обработку данных в вашей компании. Поговорим о задачах в стриминге. И технологиях, которые призваны облегчить вашу жизнь.

Тезисы

Основные задачи, которые нужно решать полноценной стриминговой платформе — это хранение событий, доставка этих событий до хранилища, ну и, конечно, обработка c возможностью хранения состояния (так называемый stateful processing).

Разберем, как может выглядеть архитектура потоковой обработки данных на референсах от AWS. И построим свою архитектуру из open source-компонентов, таких как Kafka Connect, Apache Kafka и Apache Flink.

Максим Буйлин

Райффайзен Банк

С 2011 года работает в IT. Начинал как backend-разработчик, но в 2016 познакомился с дата-инженерией и затянуло. Сейчас работает в команде Streaming Data Platform, которая развивает инструменты для потоковой обработки данных.

Видео

Другие доклады секции

Оффтоп