CDC без боли: Реальный опыт построения отказоустойчивой репликации с Debezium и Kafka

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как импортировать только новые данные из более чем 16 типов баз? Как обеспечить надежный observability всего этого и не мешать основной работе систем? Женя Прочан расскажет как они в DWH Magnit Omni используют Debezium, его возможности: инкрементальные снапшоты, хардбиты, сигналы и кое-что еще.

Целевая аудитория

Доклад будет полезен специалистам, работающим с высоконагруженными системами, которым важно обеспечить надежную репликацию данных и минимизировать нагрузку на источники.

Тезисы

Сталкивались с проблемами синхронизации данных между системами? Боролись с постоянными кейсами "данные разъехались" или перегружали базы неоптимальными запросами? Тогда этот доклад для вас!

О чем расскажем:
Change Data Capture (CDC) — это не просто модное слово, а рабочий инструмент решения бизнес-задач. На примере реальных кейсов Евгений покажет, как построить надежный пайплайн изменений данных, который станет фундаментом вашей data-driven архитектуры.

Вы узнаете:

Как Debezium и Kafka-Connect формируют идеальную пару для построения надежной CDC-системы
Почему Heartbeat — критически важный компонент, без которого ваша репликация может незаметно "отставать" (и как это предотвратить)
Мастер-класс по использованию сигналов в Debezium — революционный подход к управлению снепшотами, который снизит нагрузку на ваши БД в разы
Секретные приемы оптимизации, позволяющие обрабатывать миллионы записей без потери производительности

Настраивал CDC, внедрял kafka-engine + настройка клика для приема этих потоков от CDC. так-же стараюсь внедрять в компаниях практики хорошего кода, в случае дата-инженеров не всегда делается достаточный акцент на этом.
Делал веб приложение для exit-интервью для HR в компании СКБ-Контур.

Занимаюсь вокалом.

Видео