Расскажу, как наша платформа внутренней аналитики выросла с 8 млн до 160+ млн событий в сутки только за первый год. При линейном масштабировании стоимость инфраструктуры увеличилась бы в 20 раз, что стало критичным для бюджета. Основные расходы: ClickHouse, Kafka и GreenPlum. Встал вопрос: как сохранить производительность, но удержать рост расходов хотя бы в пределах 4–5x?
Решение
Комплексная оптимизация стоимости хранения и обработки данных:
* Настройка TTL-политик в ClickHouse с переносом на дешевые диски и S3 (экономия 20–30%).
* Оптимизация политик S3 (warm/cold storage).
* Отказ от избыточной мультизональности и версионности.
* Использование облачных фич: холодные партиции GaussDB, шедулинг ресурсов.
* Сжатие данных в Kafka и переход на дешевые диски вместо SSD.
Практическая польза:
Посетители получат готовый чек-лист оптимизации расходов на высоконагруженные аналитические системы, конкретные настройки TTL и температурных политик, метрики контроля стоимости за единицу данных, а также список критических ошибок при оптимизации (включая проблемы с бэкапами и холодным хранилищем).