Реалтайм-аналитика в распределенной системе

Архитектура и масштабируемость

Организация системы кеширования
Распределенные системы
Архитектура данных, потоки данных, версионирование

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как обрабатывать аналитические запросы за сотни миллисекунд, когда данные распределены по десяткам сервисов, а объемы измеряются миллионами/миллиардами записей? Практический опыт построения системы real-time-аналитики в большом B2B-продукте.

Целевая аудитория

Архитекторы, техлиды и разработчики в продуктовых командах, особенно те, кто сталкивается с разработкой аналитических или финансовых отчетов.

Тезисы

В докладе поделюсь практическим опытом решения задач real-time аналитики в условиях:
* Миллионы/миллиарды записей, распределенных по десяткам сервисов в большом B2B-продукте.
* Требование отклика в сотни миллисекунд.
* Постоянные изменения данных, включая обновления задним числом.

Что вы узнаете:
* Архитектурные паттерны для быстрой фильтрации и агрегации в распределенной системе.
* Концепция обновляемой Read-Only реплики: подводные камни и решения (холодный старт, гонки, скорость обновлений).
* Предагрегаты на PostgreSQL и ClickHouse: когда колоночных БД недостаточно.
* Техники обработки исторических изменений без полного пересчета.
* Путь от ad-hoc-решений к платформизации.

Практическая ценность: в конце доклада получите готовый cheatsheet с проверенными решениями для типовых задач real-time-аналитики.

Вадим Зотеев

Яндекс Go

Руководитель службы в Яндекс Такси.
В IT больше 10 лет, последние 6 лет в Яндексе, до этого — в Лаборатории Касперского.
Область профессиональных интересов: высоконагруженные и распределенные системы.

Видео

Другие доклады секции

Архитектура и масштабируемость