Дедупликация 5 миллионов событий в секунду на YDB в АппМетрике

Архитектуры, масштабируемость

Поток данных

Доклад принят в программу конференции

Целевая аудитория

Доклад рассчитан на средний и выше уровень разработчиков бэкенда.

Тезисы

Кратко расскажем про конвейер обработки событий аппметрики:
* какие задачи он решает;
* общая архитектура: примерно 50 микросервисов, передающие информацию через ClickHouse и ZooKeeper;
* Нагрузка в числах — 250 миллиардов событий в день, до 7 миллионов RPS в пике;
* зачем нужен сервис дедупликации.

Непосредственно про сервис дедупликации:
* как была устроена прошлая версия сервиса: физические сервера с состоянием в оперативной памяти, сохраняемым на диск и самодельной репликацией;
* подходы к реализации новой версии, которые рассматривали;
* почему выбрали именно YDB для реализации новой версии сервиса;
* с какими трудностями столкнулись и как их преодолели: большой поток событий, необходимость транзакционной обработки событий, удаление старых данных из базы;
* как уменьшили нагрузку на YDB в 10 раз, добавив фильтр блума в виде отдельной таблицы YDB;
* что еще предстоит сделать.

Разработчик Яндекс.Метрики.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах. Основные бизнес-направления: поиск и электронная коммерция, сервисы объявлений, медиасервисы, онлайн-заказ такси и еды, беспилотные автомобили, продукты для рекламодателей и владельцев бизнеса. Яндекс также активно развивает проекты с открытым исходным кодом, например, библиотеку машинного обучения CatBoost.

Видео

Другие доклады секции

Архитектуры, масштабируемость