Паттерны хранения и обработки данных в ClickHouseБазы данных и системы хранения
Занимается BI-инфраструктурой, масштабированием под нагрузки. Обожает всё распределённое - Spark, Hadoop, ClickHouse. В последние два успел вложить всю любовь в виде code contributions.
В последние два года ClickHouse стал одним из лидирующих инструментов в задачах OLAP. Высокая производительность в совокупности с встроенными средствами масштабирования и отказоустойчивости дают широкие возможности по построению систем обработки данных. Однако при всём богатстве инструментов, есть ряд нюансов, которые стоит учитывать при проектировании хранилищ - движки хранения данных, система репликации, retention данных.
В докладе я рассмотрю ряд паттернов использования ClickHouse, которые мы внедрили в Badoo:
1. система хранения гетерогенных событий;
2. сильно оптимизированное хранилище timeseries;
3. подсистема хранения данных об A/B-тестах;
4. Drop detection - система обнаружения отклонений в метриках в один SQL-запрос.
Рассмотрим вопросы надёжной доставки данных в ClickHouse, а также ряд фич из последних релизов (кодеки сжатия данных).