Дедупликация 5 миллионов событий в секунду на YDB в АппМетрике
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Кратко расскажем про конвейер обработки событий аппметрики:
* какие задачи он решает;
* общая архитектура: примерно 50 микросервисов, передающие информацию через ClickHouse и ZooKeeper;
* Нагрузка в числах — 250 миллиардов событий в день, до 7 миллионов RPS в пике;
* зачем нужен сервис дедупликации.
Непосредственно про сервис дедупликации:
* как была устроена прошлая версия сервиса: физические сервера с состоянием в оперативной памяти, сохраняемым на диск и самодельной репликацией;
* подходы к реализации новой версии, которые рассматривали;
* почему выбрали именно YDB для реализации новой версии сервиса;
* с какими трудностями столкнулись и как их преодолели: большой поток событий, необходимость транзакционной обработки событий, удаление старых данных из базы;
* как уменьшили нагрузку на YDB в 10 раз, добавив фильтр блума в виде отдельной таблицы YDB;
* что еще предстоит сделать.
Разработчик Яндекс.Метрики.
Яндекс
Видео
Другие доклады секции
Архитектуры, масштабируемость