Pipeline real-time аналитики Цепочек Поставок в X5 на основе Debezium CDC, Flink и Apache Iceberg

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Целевая аудитория

Разработчики, DE, DBA, DevOps

Тезисы

Тезисы:
География X5 Group – вся Россия: от Калининграда до Владивостока. 30 000 объектов (магазины, дарксторы, постаматы 5post, курьеры) завязаны на 80 распределительных центров (РЦ) в 8 федеральных округах.

Задача – интеграция данных из WMS (системы управления РЦ) в дата-платформу с учетом ключевых требований:

1️⃣ Минимальная латентность – секунды/минуты для оперативных дашбордов и интеллектуального алертинга (уведомления о сбоях в процессах).
2️⃣ Гибкость интеграции – потоки данных должны автоматически адаптироваться к изменениям модели данных источника.
3️⃣ Надежность – временные сбои в сети и недоступность БД РЦ не должны приводить к потере данных.
4️⃣ Минимальная нагрузка на источники – без доработки ИТ-инфраструктуры РЦ.
5️⃣ Легкое тиражирование – подключение новых РЦ без участия дата-инженеров.
6️⃣ Open Source – только технологии с открытыми лицензиями.

Решение – интеграционный механизм на базе Debezium, Flink, Kafka, с построением NRT-витрин в S3 (Iceberg) через Trino.

Что расскажем на докладе:
🔹 Поиск оптимальной архитектуры
🔹 Результаты нагрузочных тестов и пилотов
🔹 Унификация решения для масштабирования на все РЦ (включая новые)

Ведущий архитектор данных

Видео