Как с помощью ClickHouse решать реальные бизнес-кейсы

Базы данных и системы хранения

Доклад принят в программу конференции

Целевая аудитория

Доклад подойдет для тех, кто ищет наглядные примеры подхода «Просто делай! Делай просто!». Тем, кто работает с ClickHouse, MongoDB и MySQL, собирает, хранит и обрабатывает тьму данных, имея не очень большие ресурсы и очень большую привязку ко времени ответа.

Тезисы

Мы в Mpstats занимаемся аналитикой товаров на маркетплейсах, собираем очень много данных. Например, на WildBerries размещено 110 млн товаров, для каждого товара мы зайдем в его карточку, запишем данные (как он выглядит, какое у него текстовое описание, сколько остатков, какие были продажи, цвета, поставщик и производитель). Сохраним это в базу данных и повторим раз в сутки. Для четверти товаров мы это будем делать раз в три часа, а для 20-25 млн товаров — каждые 15 минут. Теперь добавим сюда Ozon, где товаров в два раза больше, Яндекс Маркет и параллельные разработки новых партнеров. Все это в сумме весит около 750 ТБ uncompressed-данных в ClickHouse.

В процессе развития сервиса мы упирались в несколько проблем — ClickHouse не любит обновления, а для нас это критично. Объемы данных требуют буквальных объемов железа, и даже когда оно есть — мы упираемся в его производительность. Шардирование обратно зависимых таблиц тормозит скорость выдачи, а плагин укладывает БД запросами, когда должен отдавать сравнение исторических данных по товару за секунду.

Расскажем, как справляемся с этими и другими задачами и успеваем сделать это быстрее остальных.

Основатель и совладелец сервиса аналитики Mpstats.io, основатель сервиса конкурентного анализа keys.so. 25 лет в программировании и 15 лет в бизнесе.

Mpstats.io

Сервис аналитики маркетплейсов и не только. За четыре года платформа выросла в экосистему сервисов и инструментов для селлеров на маркетплейсах (тех, кто продает товары на Wildberries, Ozon и других крупных площадках) и вошла в топ-10 российских SaaS.

Видео