Как с помощью ClickHouse решать реальные бизнес-кейсы

Базы данных и системы хранения

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Практический доклад о том, как инсталляция ClickHouse кратно росла вместе с размером бизнеса, с какими проблемами пришлось столкнуться и как они героически были решены от основателя крупнейшего сервиса аналитики маркетплейсов.

Целевая аудитория

Доклад подойдет для тех, кто ищет наглядные примеры подхода «Просто делай! Делай просто!». Тем, кто работает с ClickHouse, MongoDB и MySQL, собирает, хранит и обрабатывает тьму данных, имея не очень большие ресурсы и очень большую привязку ко времени ответа.

Тезисы

В процессе развития сервиса мы упирались в несколько проблем — ClickHouse не любит обновления, а для нас это критично. Объемы данных требуют буквальных объемов железа, и даже когда оно есть — мы упираемся в его производительность. Шардирование обратно зависимых таблиц тормозит скорость выдачи, а плагин укладывает БД запросами, когда должен отдавать сравнение исторических данных по товару за секунду.

По роду деятельности мы занимаемся аналитикой товаров на маркетплейсах, собираем очень много данных. Например, на WildBerries размещено 110 млн товаров, для каждого товара мы зайдем в его карточку, запишем данные (как он выглядит, какое у него текстовое описание, сколько остатков, какие были продажи, цвета, поставщик и производитель). Сохраним это в базу данных и повторим раз в сутки. Для четверти товаров мы это будем делать раз в три часа, а для 20-25 млн товаров — каждые 15 минут. Теперь добавим сюда Ozon, где товаров в два раза больше, Яндекс Маркет и параллельные разработки новых партнеров. Все это в сумме весит около 750 ТБ uncompressed-данных в ClickHouse.

Расскажем, как справляемся с этими и другими задачами и успеваем сделать это быстрее остальных.

Основатель и совладелец сервиса аналитики MPSTATS, основатель сервиса конкурентного анализа keys.so. 25 лет в программировании и 15 лет в бизнесе.

Видео

Другие доклады секции

Базы данных и системы хранения