Зачем и как мы написали MapReduce-движок над Clickhouse
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Аналитика ВКонтакте очень активно использует ClickHouse. Не будет преувеличением сказать, что эта СУБД выступает в качестве ключевого компонента нашего DWH: бэкенд пишет риалтайм click stream, сотни дэшбордов читают данные, десятки аналитиков пишут запросы. Благодаря развитому сервисному слою, все это работает параллельно на одних и тех же серверах.
В докладе мы коснемся части этого слоя, а именно инструментов для работы с данными поверх ClickHouse. Проследим эволюцию этих инструментов от ETL-утилиты до MapReduce-фреймворка, доступного всем коллегам. С помощью этого фреймворка аналитики решают задачи, требующие batch-обработки больших объемов данных, без написания ТЗ на подготовку датасетов и без привлечения дата-инженеров. Это значительно уменьшает time-to-market в аналитике и в конечном счете упрощает DWH-инфраструктуру, что особенно актуально для быстрорастущих компаний среднего размера. Попутно коснемся устройства пайплайна АБ-экспериментов, способного работать с самыми тяжелыми логами в масштабах сотен одновременно запущенных экспериментов.
Руководитель продуктовой аналитики ВКонтакте, занимается разработкой инфраструктуры аналитики, в частности АБ-платформы.
ВКонтакте, VK