Разрабатываем коннектор к YTsaurus для Apache Flink

Data Engineering

Доклад принят в программу конференции

Целевая аудитория

разработчики DMP, дата-инженеры, руководители DWH

Тезисы

В Yandex Go DMP работает платформа потоковой обработки на Apache Flink — сотни джобов ежесекундно гонят терабайты данных через YTsaurus. Но так было не всегда.

В этом докладе мы раскроем ключевые хаки, которые позволили нам:
- Увеличить пропускную способность с единиц МБ/с до 100+ МБ/с в одну таблицу
- Разогнать лукапы с 100 RPS до 15 000 RPS благодаря нативной поддержки асинхронности и кешам
- Пересчитывать сотни терабайт данных полученные в потоковом режиме

Мы разрабатываем высокопроизводительные коннекторы не только для YTsaurus — и поделимся практическими приёмами, которые сделают ваши решения быстрее и надежнее.

Руководитель группы развития потоковой обработки данных в Yandex Go.

Большую часть карьеры занимался разработкой различных ETL систем. Разрабатывал NRT процессинг в Belka Games. В Яндексе работаю над развитием платформы по обработке потоковых данных на Apache Flink.

Видео

Другие доклады секции

Data Engineering