Риал-тайм аналитика в распределенной системе

Архитектура и масштабируемость

Организация системы кеширования
Распределенные системы
Архитектура данных, потоки данных, версионирование

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как обрабатывать аналитические запросы за сотни миллисекунд, когда данные распределены по десяткам сервисов, а объемы измеряются миллионами/миллиардами записей? Практический опыт построения системы real-time аналитики в большом B2B продукте.

Целевая аудитория

Бэкенд-разработчики в продуктовых командах, особенно те, кто сталкивается с разработкой аналитических или финансовых отчетов

Тезисы

В докладе поделюсь практическим опытом решения задач real-time аналитики в условиях:
- Миллионы/миллиарды записей, распределенных по десяткам сервисов в большом B2B-продукте
- Требование отклика в сотни миллисекунд
- Постоянные изменения данных, включая обновления "задним числом"

Что вы узнаете:
- Архитектурные паттерны для быстрой фильтрации и агрегации в распределенной системе
- Концепция обновляемой Read-Only реплики: подводные камни и решения (холодный старт, гонки, скорость обновлений)
- Предагрегаты на PostgreSQL и ClickHouse: когда колоночных БД недостаточно
- Техники обработки исторических изменений без полного пересчета
- Путь от ad-hoc решений к платформизации


Для кого доклад:
Архитекторы, разработчики и техлиды, работающие с высоконагруженными системами и аналитикой в real-time.


Практическая ценность:
В конце доклада получите готовый cheatsheet с проверенными решениями для типовых задач real-time аналитики.

Руководитель службы в Яндекс Такси.
В IT больше 10 лет, последние 6 лет в Яндексе, до этого — в Лаборатории Касперского.
Область профессиональных интересов: высоконагруженные и распределенные системы.

Видео

Другие доклады секции

Архитектура и масштабируемость