Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Как с помощью ClickHouse решать реальные бизнес кейсы

Базы данных и системы хранения

MySQL (MariaDB, Percona Server)
ClickHouse
Оптимизация
Хранилища
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

Доклад подойдет для тех, кто ищет наглядные примеры подхода "Просто делай! Делай просто!" Тем, кто работает с ClickHouse, MongoDB и MySQL, собирает, хранит и обрабатывает тьму данных, имея не очень большие ресурсы и очень большую привязку ко времени ответа.

Тезисы

Mpstats - лидер на рынке аналитики маркетплейсов, а маркетплейсы - лидер роста рынка в России, как и во многих других странах. Мы собираем очень много данных. Например, на ВБ размещено 110 млн товаров. Для каждого товара мы зайдем в его карточку, запишем данные, как он выглядит, какое у него текстовое описание, сколько остатков, какие были продажи, цвета, поставщик и производитель. Запишем это в базу данных и повторим раз в сутки. Для четверти товаров мы это будем делать раз в три часа, а для 20-25 млн товаров - каждые 15 минут. Теперь добавим сюда Ozon, где товаров в два раза больше, Яндекс Маркет и параллельные разработки новых партнеров. Все это в сумме весит около 750 ТБ uncompressed данных в ClickHouse.
В процессе развития сервиса мы упирались в несколько проблем - ClickHouse не любит обновления, а для нас это критично. Объемы данных требуют буквальных объемов железа, и даже когда оно есть - мы упираемся в его производительность. Шардирование обратно зависимых таблиц тормозит скорость выдачи, а плагин укладывает БД запросами, когда должен отдавать сравнение исторических данных по товару за секунду. Расскажем, как справляемся с этими и другими задачами и делаем это быстрее конкурентов.

Основатель и совладелец сервиса аналитики Mpstats.io, основатель сервиса конкурентного анализа keys.so. 25 лет в программировании и 15 лет в бизнесе.

Mpstats.io

Сервис аналитики маркетплейсов и не только. За четыре года платформа выросла в экосистему сервисов и инструментов для селлеров на маркетплейсах (тех, кто продает товары на Wildberries, Ozon и других крупных площадках) и вошла в топ10 российских SaaS. Мы собираем данные из открытых источников, храним и обрабатываем, чтобы генерировать до 3 500 000 отчетов в сутки. Отчеты это те же таблички с >100 параметров, разными источниками и сложной агрегацией. Для этого мы используем >100 серверов в двух дата центрах, храним данные в Clickhouse, MySQL, MongoDB, кэшируем в рэддисе, memcashe, пишем на PHP, NodeJS, Python, на фронте TypeScript и VueJS. Мониторинг в графане и ELK, скрипты на Bash и Python. Над этим работают 13 команд разработки - бизнес аналитики, продакт и проджект менеджеры, фронты и бэкендеры, QA, датасайентисты, админы и девопсы, UX/UI дизайнеры.

Видео

Другие доклады секции

Базы данных и системы хранения