Debezium + Kafka = любовь, как организовать cdc и не расплескать ничего по дороге

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как импортировать только новые данные из более чем 16 типов баз? Как обеспечить надежный observability всего этого и не мешать основной работе систем? Женя Прочан расскажет как они в DWH Magnit Omni используют Debezium, его возможности: инкрементальные снапшоты, хардбиты, сигналы и кое-что еще.

Целевая аудитория

Этот доклад будет полезен специалистам, работающим с высоконагруженными системами, которым важно обеспечить надежную репликацию данных и минимизировать нагрузку на источники.

Тезисы

1. Использование Debezium и kafka-connect для репликации
- Использование Kafka-Connect для доставки изменений из базы данных в топик Kafka

2. Роль Heartbeat, и как он решает проблему отставания слота репликации
- Heartbeat облегчает мониторинг Debezium.
- Решение проблемы отставания в PostgreSQL при чтении части таблиц.

3. Сигналы в Debezium: новый уровень управления снепшотами
- Современный подход к созданию снепшотов.
- Снижение нагрузки на БД при их использовании.
- Гибкость управления: запуск, пауза, отмена.
- Прозрачный мониторинг снепшотов

Настраивал CDC, внедрял kafka-engine + настройка клика для приема этих потоков от CDC. так-же стараюсь внедрять в компаниях практики хорошего кода, в случае дата-инженеров не всегда делается достаточный акцент на этом.
Делал веб приложение для exit-интервью для HR в компании СКБ-Контур.

Занимаюсь вокалом.

Магнит OMNI

Магнит OMNI - команда, которая создаёт уникальный омниканальный опыт для клиентов, объединяя «Магнит Плюс», «Магнит Фудтех», «Магнит Маркет» и приложение «Магнит: акции и доставка». Мы трансформируем ритейл, предлагая инновационные решения, которые делают жизнь миллионов клиентов лучше.

Видео