Где деньги, Лебовски? Как мы следим за стоимостью системы аналитики в облаке

Резерв

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Взрывной рост аналитики: с 8 млн до 160+ млн событий/сутки без 20x бюджета! Реальный кейс оптимизации ClickHouse, Kafka, S3 и GreenPlum: TTL, сжатие, холодное хранение. Узнайте метрики "стоимость/данные", провалы (инциденты с бэкапами) и чек-лист. Опыт, который сэкономит ваши деньги!

Целевая аудитория

Владельцы и архитекторы систем, ответственные за эксплуатацию

Тезисы

Расскажу, как наша платформа внутренней аналитики выросла с 8 млн до 160+ млн событий в сутки только за первый год. При линейном масштабировании стоимость инфраструктуры увеличилась бы в 20 раз, что стало критичным для бюджета. Основные расходы: ClickHouse, Kafka и GreenPlum. Встал вопрос: как сохранить производительность, но удержать рост расходов хотя бы в пределах 4-5x?

Решение
Комплексная оптимизация стоимости хранения и обработки данных:
- Настройка TTL политик в ClickHouse с переносом на дешевые диски и S3 (экономия 20-30%)
- Оптимизация политик S3 (warm/cold storage)
- Отказ от избыточной мультизональности и версионности
- Использование облачных фич: холодные партиции GaussDB, шедулинг ресурсов
- Сжатие данных в Kafka и переход на дешевые диски вместо SSD

Практическая польза:
Посетители получат готовый чек-лист оптимизации расходов на высоконагруженные аналитические системы, конкретные настройки TTL и температурных политик, метрики контроля "стоимости за единицу данных", а также список критических ошибок при оптимизации (включая проблемы с бэкапами и холодным хранилищем).

Более 10 лет работает с самыми разными людьми, с 2021 года — в сфере IT.
В настоящее время руководит разработкой платформы данных в Сбере (SberDevices), состоящей из нескольких продуктов и команд разработки — добывают новую нефть, обеспечивают аналитику умных устройств и других продуктов Сбера, готовят данные для GigaChat.

Видео

Другие доклады секции

Резерв