Риал-тайм аналитика в распределенной системе
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В докладе расскажу как в риал-тайме (сотни мс) обрабатывать аналитические запросы в распределенной системе, когда есть миллионы или даже миллиарды сущностей, разные свойства которых распределены по десяткам сервисов и баз данных, а сами данные постоянно меняются.
Обсудим задачи фильтрации, сортировки и агрегации данных, рассмотрим возможные варианты решения и обсудим, что будет работать, а что - нет. Отдельно остановимся на концепциях обновляемой RO-реплики и предагрегатах данных и рассмотрим примеры решения реальных задач на PG и Clickhouse, а также способы платформизации решений.
Расскажу что делать, если результаты аналитики должны быстро учитывать обновления данных и как учитывать обновления "задним числом" без полного пересчета всех данных. В конце составлю cheatsheet по решению подобных задач.
Руководитель службы в Яндекс Такси.
В IT больше 10 лет, последние 6 лет в Яндексе, до этого — в Лаборатории Касперского.
Область профессиональных интересов: высоконагруженные и распределенные системы.
Видео
Другие доклады секции
Архитектура и масштабируемость