Разрабатываем коннектор к YTsaurus для Apache Flink
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В Yandex Go DMP работает платформа потоковой обработки на Apache Flink — сотни джобов ежесекундно гонят терабайты данных через YTsaurus. Но так было не всегда.
В этом докладе мы раскроем ключевые хаки, которые позволили нам:
- Увеличить пропускную способность с единиц МБ/с до 100+ МБ/с в одну таблицу
- Разогнать лукапы с 100 RPS до 15 000 RPS благодаря нативной поддержки асинхронности и кешам
- Пересчитывать сотни терабайт данных полученные в потоковом режиме
Мы разрабатываем высокопроизводительные коннекторы не только для YTsaurus — и поделимся практическими приёмами, которые сделают ваши решения быстрее и надежнее.
Руководитель группы развития потоковой обработки данных в Yandex Go.
Большую часть карьеры занимался разработкой различных ETL систем. Разрабатывал NRT процессинг в Belka Games. В Яндексе работаю над развитием платформы по обработке потоковых данных на Apache Flink.
Видео
Другие доклады секции
Data Engineering