Где деньги, Лебовски? Как мы следим за стоимостью системы аналитики в облаке

Резерв

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Взрывной рост аналитики: с 8 млн до 160+ млн событий/сутки без x20- бюджета! Реальный кейс оптимизации ClickHouse, Kafka, S3 и GreenPlum: TTL, сжатие, холодное хранение. Узнайте метрики «стоимость/данные», провалы (инциденты с бэкапами) и чек-лист. Опыт, который сэкономит ваши деньги!

Целевая аудитория

Владельцы и архитекторы систем, ответственные за эксплуатацию.

Тезисы

Расскажу, как наша платформа внутренней аналитики выросла с 8 млн до 160+ млн событий в сутки только за первый год. При линейном масштабировании стоимость инфраструктуры увеличилась бы в 20 раз, что стало критичным для бюджета. Основные расходы: ClickHouse, Kafka и GreenPlum. Встал вопрос: как сохранить производительность, но удержать рост расходов хотя бы в пределах 4–5x?

Решение

Комплексная оптимизация стоимости хранения и обработки данных:
* Настройка TTL-политик в ClickHouse с переносом на дешевые диски и S3 (экономия 20–30%).
* Оптимизация политик S3 (warm/cold storage).
* Отказ от избыточной мультизональности и версионности.
* Использование облачных фич: холодные партиции GaussDB, шедулинг ресурсов.
* Сжатие данных в Kafka и переход на дешевые диски вместо SSD.

Практическая польза:
Посетители получат готовый чек-лист оптимизации расходов на высоконагруженные аналитические системы, конкретные настройки TTL и температурных политик, метрики контроля стоимости за единицу данных, а также список критических ошибок при оптимизации (включая проблемы с бэкапами и холодным хранилищем).

Более 10 лет работает с самыми разными людьми, с 2021 года — в сфере IT.
В настоящее время руководит разработкой платформы данных в Сбере (SberDevices), состоящей из нескольких продуктов и команд разработки — добывают новую нефть, обеспечивают аналитику «умных» устройств и других продуктов Сбера, готовят данные для GigaChat.

Видео