Эволюция сбора данных в datalake в инфраструктуре Самоката и других продуктов ecom.tech

Архитектура

Доклад принят в программу конференции

Целевая аудитория

Техлиды, разработчики, архитекторы, системные аналитики и тестировщики.

Тезисы

В своем докладе я опишу опыт внедрения распространения данных по паттерну EventStreaming для наполнения DataLake в ecom.tech. А именно:
* почему мы в целом пошли в эту историю и какие проблемы решали;
* как мы подошли к задаче в первый раз, почему отказались от общепринятого CDC (Postgres WAL / Debezium), какие инструменты были выбраны и почему;
* где и по какому принципу хранили сначала, храним сейчас и согласуем схемы данных;
* как организовывали кросс-ДЦ-распространение схем и данных;
* почему далеко не все продуктовые команды в восторге от внедрения похода, и как мы адаптировали подход после сбора критики;
* почему EventStreaming может быть не лучшим вариантом для вашего продукта, какие есть стратегии мягкого внедрения или замещения в целом.

Техлид сервиса управления логистических объектов в Ecom.tech.
В разработке с начала нулевых. Java- => Ruby-разработчик. С 2015 года руководит командами разработки на Ruby, Go и JavaScript|TypeScript.
Любит и уважает решительно все языки и технологии в IT. Каждый день надеется узнать что-то новое в профессии. Хотел быть летчиком, но попал в IT, еще когда это не было модным, и нисколько не жалеет.

Видео

Другие доклады секции

Архитектура