Как мы заменили сотни Join’ов на один РТ-процессинг с 1kk RPS

BigData и инфраструктура машинного обучения (data engineering)

Распределенные системы
Оптимизация
Хранилища
Обработка данных
YTSaurus

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В данном докладе посмотрим на историю эволюции от крупной и дорогой MapReduce-системы до казавшимся невозможным realtime-процессинга по обогащению событий, и на то, как разделение хранилища на классы по производительности позволяет выдержать адекватную стоимость итогового решения.

Целевая аудитория

Дата-инженеры, разработчики высоконагруженных приложений, разработчики feature store.

Тезисы

Я расскажу про то, как мы построили систему, которая держит миллионы RPS и позволяет во всех частях рекламы в режиме реального времени иметь точную и актуальную информацию о рекламном событии со всей его многодневной историей изменений.

Таким образом, мы решили проблему того, чтобы в MapReduce-мире обогатить событие информацией из всех предшествовавших ему в течение 100 дней шагов — долго и дорого, особенно когда счет этих событий идет на миллиарды. А ещё мы нашей системой решили проблему того, что в разных частях рекламы одни и те же статистики показывали разные значения, что осложняло жизнь аналитикам и вызывало вопросы у наших пользователей.

Но в нашей стройке не все было гладко, я расскажу, как новый рекламный продукт заставил нас пересмотреть модель работы и о том, как мы придумали способ чинить во всей рекламе инциденты на данных через наш процессинг.

Приходите, будет интересно!

Данные и автомобили — это страсть Максима. Он работает в области обработки данных уже более 10 лет. За это время успел поработать в государственных структурах, в банках, в IT-гигантах Mail.Ru и Yandex. Считает, что если машинное обучение — это паровоз, на котором мы въедем в будущее, то данные — это уголь, на котором он работает.

Яндекс

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)