Pipeline real-time аналитики Цепочек Поставок в X5 на основе Debezium CDC, Flink и Apache Iceberg
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Тезисы:
География X5 Group – вся Россия: от Калининграда до Владивостока. 30 000 объектов (магазины, дарксторы, постаматы 5post, курьеры) завязаны на 80 распределительных центров (РЦ) в 8 федеральных округах.
Задача – интеграция данных из WMS (системы управления РЦ) в дата-платформу с учетом ключевых требований:
1️⃣ Минимальная латентность – секунды/минуты для оперативных дашбордов и интеллектуального алертинга (уведомления о сбоях в процессах).
2️⃣ Гибкость интеграции – потоки данных должны автоматически адаптироваться к изменениям модели данных источника.
3️⃣ Надежность – временные сбои в сети и недоступность БД РЦ не должны приводить к потере данных.
4️⃣ Минимальная нагрузка на источники – без доработки ИТ-инфраструктуры РЦ.
5️⃣ Легкое тиражирование – подключение новых РЦ без участия дата-инженеров.
6️⃣ Open Source – только технологии с открытыми лицензиями.
Решение – интеграционный механизм на базе Debezium, Flink, Kafka, с построением NRT-витрин в S3 (Iceberg) через Trino.
Что расскажем на докладе:
🔹 Поиск оптимальной архитектуры
🔹 Результаты нагрузочных тестов и пилотов
🔹 Унификация решения для масштабирования на все РЦ (включая новые)
Ведущий архитектор данных
Видео
Другие доклады секции
BigData и инфраструктура машинного обучения (data engineering)