Единая веб-платформа для инженеров данных: как мы объединили 10+ микросервисов и сократили time-to-market

Data Engineering

Python
Технологии “быстрых решений”, “быстрого прототипирования”
Микросервисы

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Аналитики, инженеры данных. Все, кто связан с данными.

Тезисы

Работая в крупной ритейл-компании, мы управляем более чем 12 000 потоков данных и хранилищем объёмом 12+ петабайт. Инженеры данных ежедневно работают с набором разрозненных инструментов: среды разработки, GitLab, Airflow, SQL-движки, различные сервисы хранения и трансформации.

Такой «зоопарк» увеличивает time-to-market, усложняет онбординг и создает зависимость от контекста конкретных людей и команд.

Мы решили объединить ключевые процессы разработки потоков данных в единую веб-платформу: одно входное окно для создания, редактирования и оркестрации пайплайнов, интегрированное с Airflow и GitLab через API.

В докладе расскажем:
- как родилась идея и как мы её «продавали» внутри,
- как проектировали архитектуру из 10+ микросервисов,
- как решали задачи сложной интеграции,
- почему выбрали low-code подход,
- какие ошибки допустили,
- и какие результаты получили на текущем этапе.

Это практический кейс о создании внутреннего продукта для data-инженеров: с реальными ограничениями по ресурсам, итерациями, отказами и эволюцией решения.

Занимается построением платформы данных в X5 Tech. Интересуется не только технологиями, но и искусством - поэтому в его проектах всегда есть место и логике, и вкусу.

Видео

Другие доклады секции

Data Engineering