Разработка высокопроизводительного коннектора к YTsaurus для Apache Flink

Data Engineering

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Если любимая база данных не дружит с вашим любимым фреймворком потоковой обработки данных, то самое время разрабатывать свой коннектор. В этом докладе вы из первых рук узнаете о типовых узких местах разработки коннекторов Apache Flink и лучших практиках их устранения.

Целевая аудитория

разработчики DMP, дата-инженеры, руководители DWH

Тезисы

В DMP Yandex Go работает платформа потоковой обработки данных на базе Apache Flink. Сотни джобов ежесекундно обрабатывают терабайты данных и отправляют их в YTsaurus. Однако так было не всегда.
В докладе расскажем о том, как разрабатывали коннектор для Apache Flink, чтобы удовлетворить потребности DWH в real-time поставке данных: научиться отправлять сотни мегабайт в секунду и выполнять лукапы в тысячи RPS в кластер YTsaurus.

Руководитель группы развития потоковой обработки данных в Yandex Go.

Большую часть карьеры занимался разработкой различных ETL систем. Разрабатывал NRT процессинг в Belka Games. В Яндексе работаю над развитием платформы по обработке потоковых данных на Apache Flink.

Видео

Другие доклады секции

Data Engineering