Pipeline real-time-аналитики цепочек поставок в X5 на основе Debezium CDC, Flink и Apache Iceberg

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Иван Смольянинов из X5 расскажет захватывающий доклад о том, как собрать аналитические данные из более чем 80 разбросанных по всей стране огромных складов. Все бы ничего, но там далеко не всегда стабильный и широкий канал, нет возможности доставить оборудование, а версии ПО заметно разнятся.

Целевая аудитория

Дата-инженеры, DBA, архитекторы.

Тезисы

География X5 Group — вся Россия: от Калининграда до Владивостока. 30 000 объектов (магазины, дарксторы, постаматы 5post, курьеры) завязаны на 80 распределительных центров (РЦ) в 8 федеральных округах. Чтобы управлять такой цепочкой поставок, данные из WMS должны поступать в дата-платформу с задержкой в секунды — максимум минуты.

Но при этом:
* разные РЦ — это физически независимые дата-центры,
* сеть между РЦ и дата-платформой может временно отвалиться,
* нельзя давать на компоненты РЦ повышенную нагрузку,
* подключение новых РЦ должно работать «в один клик».

В X5 мы построили отказоустойчивый, масштабируемый и полностью open source-стек на базе Debezium, Kafka, Flink, Trino и Iceberg. Без ручных операций со стороны дата-инженеров, без боли при изменениях и без закрытых решений.

В докладе расскажем:
* как выбирали архитектуру и обкатывали в бою;
* как справлялись с нагрузкой и обеспечили устойчивость к сетевым сбоям;
* как унифицировали подход для быстрого тиражирования на десятки РЦ.

Эксперт в BI, DWH, ETL, технологиях и решениях, связанных с данными. 10+ лет в индустрии — коммерческая разработка в ролях разработчика, аналитика, дата-инженера, тимлида, владельца продукта, проджект-менеджера, архитектора, CTO.
Сейчас — архитектор данных в X5 Tech.

Видео