Риал-тайм аналитика в распределенной системе

Архитектура и масштабируемость

Организация системы кеширования
Распределенные системы
Архитектура данных, потоки данных, версионирование

Доклад принят в программу конференции

Целевая аудитория

Бэкенд-разработчики в продуктовых командах, особенно те, кто сталкивается с разработкой аналитических или финансовых отчетов

Тезисы

В докладе расскажу как в риал-тайме (сотни мс) обрабатывать аналитические запросы в распределенной системе, когда есть миллионы или даже миллиарды сущностей, разные свойства которых распределены по десяткам сервисов и баз данных, а сами данные постоянно меняются.

Обсудим задачи фильтрации, сортировки и агрегации данных, рассмотрим возможные варианты решения и обсудим, что будет работать, а что - нет. Отдельно остановимся на концепциях обновляемой RO-реплики и предагрегатах данных и рассмотрим примеры решения реальных задач на PG и Clickhouse, а также способы платформизации решений.

Расскажу что делать, если результаты аналитики должны быстро учитывать обновления данных и как учитывать обновления "задним числом" без полного пересчета всех данных. В конце составлю cheatsheet по решению подобных задач.

Руководитель службы в Яндекс Такси.
В IT больше 10 лет, последние 6 лет в Яндексе, до этого — в Лаборатории Касперского.
Область профессиональных интересов: высоконагруженные и распределенные системы.

Видео