Как с помощью ClickHouse решать реальные бизнес-кейсы
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Мы в Mpstats занимаемся аналитикой товаров на маркетплейсах, собираем очень много данных. Например, на WildBerries размещено 110 млн товаров, для каждого товара мы зайдем в его карточку, запишем данные (как он выглядит, какое у него текстовое описание, сколько остатков, какие были продажи, цвета, поставщик и производитель). Сохраним это в базу данных и повторим раз в сутки. Для четверти товаров мы это будем делать раз в три часа, а для 20-25 млн товаров — каждые 15 минут. Теперь добавим сюда Ozon, где товаров в два раза больше, Яндекс Маркет и параллельные разработки новых партнеров. Все это в сумме весит около 750 ТБ uncompressed-данных в ClickHouse.
В процессе развития сервиса мы упирались в несколько проблем — ClickHouse не любит обновления, а для нас это критично. Объемы данных требуют буквальных объемов железа, и даже когда оно есть — мы упираемся в его производительность. Шардирование обратно зависимых таблиц тормозит скорость выдачи, а плагин укладывает БД запросами, когда должен отдавать сравнение исторических данных по товару за секунду.
Расскажем, как справляемся с этими и другими задачами и успеваем сделать это быстрее остальных.
Основатель и совладелец сервиса аналитики Mpstats.io, основатель сервиса конкурентного анализа keys.so. 25 лет в программировании и 15 лет в бизнесе.
Mpstats.io
Видео
Другие доклады секции
Базы данных и системы хранения