Про базы данных
О стриме развития
Программа стрима
Всё необходимое для глубокого погружения в тему
MongoDB как единственное хранилище. Использование, проблемы, боль и последствия
Расскажу, как MongoDB работает в реальной продакшн-среде: как хранилище, кеш, брокер сообщений, time-series и распределенная база данных. Покажу, где она действительно справляется и позволяет упростить стек, а где на практике пришлось перейти на специализированные решения: Redis, Kafka, VictoriaMetrics. Поделюсь архитектурными компромиссами, эксплуатационными нюансами и выводами, которые помогают трезво выбирать инструменты.
Тест-драйв ClickHouse: 24 миллиарда событий в сутки
В нашей системе аналитики события проходят путь от шины данных через сервис сбора событий, попадают в Kafka, а затем — в ClickHouse с помощью Kafka-Engine. В архитектуре — три кластера ClickHouse (main, replica, sandbox) с настроенной репликацией, каждый из которых обслуживает свою зону ответственности: сбор, BI, пользовательские запросы.
Мы провели серию нагрузочных и отказоустойчивых тестов, чтобы убедиться, что система выдерживает реальные и экстремальные сценарии. В докладе расскажем:
- Как устроен наш стриминговый пайплайн: от шины данных до ClickHouse.
- Как сервис сбора событий справляется с миллиардами событий.
- Какие тесты проводили:
- 9 млрд событий в сутки;
- 15 млрд событий в сутки;
- 24 млрд событий в сутки — предел, к которому стремились;
- внезапный скачок нагрузки х2;
- сбой кластера ClickHouse и как он проявился;
- сбой Kafka и поведение пайплайна;
- запись всех событий в один проект вместо 50+ — и к чему это привело;
- Kafka-Engine vs Kafka-Connect — замеры, сравнение, выбор.
- Как организовали мониторинг и метрики, на что смотрели в Grafana и ClickHouse.
- Какие баги, затыки и инсайты мы получили и как это повлияло на прод.
- Дополнительный тюнинг ClickHouse для приема 100 млрд событий в сутки
Доклад будет интересен всем, кто работает с ClickHouse под высокой нагрузкой, собирает real-time-данные, использует Kafka и хочет понять, где тонко и как не порвать.
PAX - аналог parquet/orc для Apache Cloudberry - форка Greenplum
Greenplum стал closed source. Но мы продолжаем развивать его в Apache Cloudberry. Как емко заметил в свое время Andy Pavlo, основной проблемой Greenplum было то, что никто больше не ставил его добровольно. Мы хотим это изменить. Например, добавили новый формат хранения PAX. PAX - колоночное хранилище для гибридной транзакционной и аналитической обработки. Ближайший аналог - parquet/orc. Зачем еще один формат? Краткий ответ - для производительности, потому нужны еще и улучшения в движок выполнения запросов, чтобы сделать аналог zone maps и bloom filter из parquet. Детали нового формата PAX и улучшений в движке запросов расскажу в докладе.
Форматы
Краткий гид по форматам в программе
Доклад / лекция
Классический рассказ в лекционном формате.
Мастер-классы
Практика, в рамках которой докладчик шаг за шагом показывает решение рабочей задачи или обучающий кейс, а участники слушают и, возможно, выполняют задания самостоятельно или в командах.
Блиц-доклады (Lightning talks)
Короткие доклады до 20 минут — отдельные или объединенные общей темой.
Круглые столы
Несколько экспертов обсуждают острую тему со сцены. Остальные наблюдают. Любой из зала может задать вопрос или предложить решение, если хочет внести вклад.
Групповая работа
Мы делим участников на несколько тематических групп.
У каждой группы своя подтема (что именно аргументировать, кому именно аргументировать - разделённые по
какому-то принципу). Группы обсуждают, может быть играют в имитационную игру, где пробуют свои аргументы
в бою, затем кто-то от каждой группы делает доклад на 10 минут уже для всей аудитории. В конце выбираем
самую полезную группу.
Панельная дискуссия
Это сессия ответов на наиболее интересные в секции вопросы от представителей разных отраслей и компаний. Честно, аргументированно и "без купюр".