Как перейти от batch к streaming на примере рекламной контент-системы

Базы данных и системы хранения

Архитектурные кейсы

Фреймворки
C/C++
Оптимизация производительности
Распределенные системы
Оптимизация
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Рекламная система Яндекса — крупнейшая в Рунете по выручке, количеству объявлений, количеству северов; огромная по нагрузке и очень сложная. Быстрая доставка миллионов объявлений в рекламный движок — интересная инженерная задача, напрямую влияющая на деньги.

Целевая аудитория

Данный доклад будет интересен всем, кто занимается сбором и доставкой данных до рантайма рекомендательных систем, где при этом важна свежесть данных.

Тезисы

Ключевая задача рекламной контент-системы — собрать и подготовить все данные, необходимые для отбора и ранжирования баннеров на хите, в том числе про пользователя, баннер и площадку.

В своем докладе я расскажу про наш переход из batch в streaming. Предпосылками для перехода были следующие факты:
* Быстрый учет изменений и событий продуктово важен. В том числе виден на экспериментах в ключевых метриках (отдельные ускорения могут давать до нескольких процентов денег/конверсий).
* Дальнейшее ускорение требовало экспоненциального роста потребляемого CPU (десятки тысяч ядер), либо упиралось в ограничения MapReduce-модели.
* Сложность поддержки большого количества железных машин (~1000 хостов) и самописных систем синхронизации
Сегодня наша контент-система обрабатывает миллионы событий и изменений в секунду, а суммарный размер стейтов со всеми репликами занимает несколько петабайт.

В докладе я расскажу о получившейся архитектуре обработки и хранения данных, какие проблемы нам пришлось решить в процессе.

Руководитель отдела инфраструктуры рекомендательных систем. Занимается потоковой обработкой данных и построением удобной ML-инфраструктуры для ресечеров. Закончил МФТИ. В Яндексе с 2013 года. Выпускник и преподаватель ШАД-а, семинарист на курсе «Алгоритмы и структуры данных».

Яндекс

Яндекс

Видео

Другие доклады секции

Базы данных и системы хранения