Внедрение и развитие каталога данных в МТС BigData: практический опыт

Базы данных и системы хранения

6 ноября, 17:00, Зал «НеДетская Капсула»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Александр расскажет историю сборки нового каталога данных из open-source-компонентов: архитектурные решения, неожиданные проблемы и сложности, о которых не подозреваешь, пока не начнешь писать код. В центре рассказа DataHub, полмиллиона таблиц и больше 400 источников данных.

Целевая аудитория

Data Governance, Data-инженеры, аналитики данных, Python-разработчики.

Тезисы

Когда в компании объемы данных постоянно растут, в какой-то момент в них становится довольно сложно ориентироваться, и не утонуть в этом болоте помогает каталог данных.

У нас уже было проприетарное решение, но, к сожалению, из-за всем известных событий возникли проблемы с лицензиями, и ему пришлось искать альтернативу.

В своем докладе я поделюсь опытом поиска и внедрения нового каталога данных в МТС BigData: как мы выбирали решение, как пришли к open source и как нам пришлось сидеть на двух стульях (зачеркнуто) каталогах в процессе миграции со старого каталога на новый. Тема взаимодействия с пользователями в этом процессе также будет раскрыта.

Ну а в завершение расскажу, каким образом мы извлекаем метаданные с кластеров размером десятки петабайт незаметно для самих кластеров, с какими проблемами столкнулись на пути к данному решению и на какие trade-off при этом пришлось пойти.

Александр Полищук

МТС Web Services (MWS)

В разработке более 10 лет. Занимался разработкой различных систем, от закрытых программно-аппаратных комплексов до сервисов, располагающихся в AWS. Сейчас занимается развитием каталога данных в MWS Data и вместе с командой пытается собрать метаданные со всей экосистемы МТС, а помимо этого — развитием процесса разработки в MWS Data. Использует в основном Python, JS.