Зачем и как мы написали MapReduce-движок над Clickhouse

Резерв

Доклад принят в программу конференции

Целевая аудитория

Любые специалисты, которые работают в инфраструктуре аналитики или Data Engineering; аналитики, интересующиеся инструментами обработки больших данных.

Тезисы

Аналитика ВКонтакте очень активно использует ClickHouse. Не будет преувеличением сказать, что эта СУБД выступает в качестве ключевого компонента нашего DWH: бэкенд пишет риалтайм click stream, сотни дэшбордов читают данные, десятки аналитиков пишут запросы. Благодаря развитому сервисному слою, все это работает параллельно на одних и тех же серверах.

В докладе мы коснемся части этого слоя, а именно инструментов для работы с данными поверх ClickHouse. Проследим эволюцию этих инструментов от ETL-утилиты до MapReduce-фреймворка, доступного всем коллегам. С помощью этого фреймворка аналитики решают задачи, требующие batch-обработки больших объемов данных, без написания ТЗ на подготовку датасетов и без привлечения дата-инженеров. Это значительно уменьшает time-to-market в аналитике и в конечном счете упрощает DWH-инфраструктуру, что особенно актуально для быстрорастущих компаний среднего размера. Попутно коснемся устройства пайплайна АБ-экспериментов, способного работать с самыми тяжелыми логами в масштабах сотен одновременно запущенных экспериментов.

Андрей Кузнецов

ВКонтакте, VK

Руководитель продуктовой аналитики ВКонтакте, занимается разработкой инфраструктуры аналитики, в частности АБ-платформы.

ВКонтакте, VK

ВКонтакте — крупнейшая социальная сеть в России и странах СНГ. Миссия ВКонтакте — соединять людей, сервисы и компании, создавая простые и удобные инструменты коммуникации. VK — это больше 200 технопроектов. Свыше 10 000 человек создают и развивают одни из самых популярных и высоконагруженных интернет-сервисов в стране. Мы делаем комфортнее, легче и интереснее жизнь сотне миллионов людей.

Видео