One streaming to rule them all. Стриминг как фундамент аналитической экосистемы

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад про то, как внутри Яндекс Go удалось сделать универсальный стриминг, который поддерживает задачи real-time-аналитики, ML, BigData, DWH и платформы A/B-тестирования.

Целевая аудитория

Архитекторы и разработчики data-intensive-систем, дата-инженеры, аналитики.

Тезисы

Опираясь на свой опыт, расскажем о том, как на основе стриминга удалось достичь синергии развития аналитических платформ (real-time-аналитика и ML, BigData&DWH, feature store, A/B-платформа, etc.). Мы рассмотрим предпосылки для данного решения и кратко коснемся логики выбора из ряда альтернатив.

Рассмотрим практический пример реализации сложного stateful-стриминга, расскажем, с какими сложностями столкнулись и какой результат получили на выходе, пройдя через тернии.

Руководит Data Office в Яндекс Go и отвечает за развитие всех аналитических сервисов от хранилища данных до A/B-платформы. Работал в самых разных ролях от аналитика до backend-разработчика.

Особенно гордится разработанным инструментом real-time-аналитики, который потребовал множества нестандартных подходов для решения задачи масштабирования.

Наибольший интерес для Дмитрия представляют высоконагруженные data intensive-решения.

Яндекc Go

Яндекс Go — это суперапп, соединяющий в себе сервисы Яндекса, связанные с передвижением. Платформа для исполнителей (водителей и курьеров) помогает обеспечивать выполнение заказов в сервисах такси, доставки и транспортировки грузов.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)