Внедрение и развитие каталога данных в МТС BigData: практический опыт

Базы данных и системы хранения

Доклад принят в программу конференции

Целевая аудитория

Data Governance, Data инженеры, Аналитики данных, Python разработчики

Тезисы

Когда в компании объемы данных постоянно растут, в какой-то момент в них становится довольно сложно ориентироваться, и не утонуть в этом болоте помогает Каталог Данных.

У нас уже было проприетарное решение, но, к сожалению, из-за всем известных событий возникли проблемы с лицензиями и ему пришлось искать альтернативу.

В своем докладе я поделюсь опытом поиска и внедрения нового каталога данных в МТС BigData: как мы выбирали решение, как пришли к opensource и как нам пришлось сидеть на двух стульях(зачеркнуто) каталогах в процессе миграции со старого каталога на новый. Тема взаимодействия с пользователями в этом процессе так же будет раскрыта.

Ну а в завершении - расскажу, каким образом мы извлекаем метаданные с кластеров размером десятки петабайт незаметно для самих кластеров, с какими проблемами столкнулись на пути к данному решению и на какие trade-off при этом пришлось пойти.

Александр Полищук

МТС Web Services (MWS)

В разработке более 10 лет. Занимался разработкой различных систем, от закрытых программно-аппаратных комплексов до сервисов, располагающихся в AWS. Сейчас занимаюсь развитием Каталога Данных в MWS Data и вместе с командой пытаемся собрать метаданные со всей экосистемы МТС. Использую в основном Python, а так же JS (TS).

Видео

Другие доклады секции

Базы данных и системы хранения