Разработка высокопроизводительного коннектора к YTsaurus для Apache Flink

Data Engineering

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если любимая база данных не дружит с вашим любимым фреймворком потоковой обработки данных, то самое время разрабатывать свой коннектор. В этом докладе вы из первых рук узнаете о типовых узких местах разработки коннекторов Apache Flink и лучших практиках их устранения.

Целевая аудитория

Разработчики DMP, дата-инженеры, руководители DWH.

Тезисы

В DMP Yandex Go работает платформа потоковой обработки данных на базе Apache Flink. Сотни джобов ежесекундно обрабатывают терабайты данных и отправляют их в YTsaurus. Однако так было не всегда.

В докладе расскажем о том, как разрабатывали коннектор для Apache Flink, чтобы удовлетворить потребности DWH в поставке данных в режиме real-time: научиться отправлять сотни мегабайт в секунду и выполнять лукапы в тысячи RPS в кластер YTsaurus.

Данил Сабиров

Яндекс

Руководитель группы развития потоковой обработки данных в Yandex Go.

Большую часть карьеры занимался разработкой различных ETL систем. Разрабатывал NRT-процессинг в Belka Games. В Яндексе работает над развитием платформы по обработке потоковых данных на Apache Flink.