CDC без боли: реальный опыт построения отказоустойчивой репликации с Debezium и Kafka

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как импортировать только новые данные из более чем 16 типов баз? Как обеспечить надежный observability всего этого и не мешать основной работе систем? Женя Прочан расскажет, как они в DWH Magnit Omni используют Debezium, его возможности: инкрементальные снепшоты, хардбиты, сигналы и кое-что еще.

Целевая аудитория

Доклад будет полезен специалистам, работающим с высоконагруженными системами, которым важно обеспечить надежную репликацию данных и минимизировать нагрузку на источники.

Тезисы

Сталкивались с проблемами синхронизации данных между системами? Боролись с постоянными кейсами «данные разъехались» или перегружали базы неоптимальными запросами? Тогда этот доклад для вас!

О чем расскажем. Change Data Capture (CDC) — это не просто модное слово, а рабочий инструмент решения бизнес-задач. На примере реальных кейсов Евгений покажет, как построить надежный пайплайн изменений данных, который станет фундаментом вашей data-driven-архитектуры.

Вы узнаете:
* как Debezium и Kafka-Connect формируют идеальную пару для построения надежной CDC-системы;
* почему Heartbeat — критически важный компонент, без которого ваша репликация может незаметно «отставать» (и как это предотвратить);
* секретные приемы оптимизации, позволяющие обрабатывать миллионы записей без потери производительности.
+ мастер-класс по использованию сигналов в Debezium — революционный подход к управлению снепшотами, который снизит нагрузку на ваши БД в разы.

Настраивал CDC, внедрял kafka-engine + настройка клика для приема этих потоков от CDC. Также старается внедрять в компаниях практики хорошего кода, в случае дата-инженеров не всегда делается достаточный акцент на этом.
Делал веб-приложение для exit-интервью для HR в компании СКБ-Контур.

Занимается вокалом.

Видео