Когда в компании объемы данных постоянно растут, в какой-то момент в них становится довольно сложно ориентироваться, и не утонуть в этом болоте помогает каталог данных.
У нас уже было проприетарное решение, но, к сожалению, из-за всем известных событий возникли проблемы с лицензиями, и ему пришлось искать альтернативу.
В своем докладе я поделюсь опытом поиска и внедрения нового каталога данных в МТС BigData: как мы выбирали решение, как пришли к open source и как нам пришлось сидеть на двух стульях (зачеркнуто) каталогах в процессе миграции со старого каталога на новый. Тема взаимодействия с пользователями в этом процессе также будет раскрыта.
Ну а в завершение расскажу, каким образом мы извлекаем метаданные с кластеров размером десятки петабайт незаметно для самих кластеров, с какими проблемами столкнулись на пути к данному решению и на какие trade-off при этом пришлось пойти.