Построение Data Catalog как Unboxing Big Data проектов
Доклад отклонён
Целевая аудитория
Тезисы
Проблема прозрачности процессов работы с данными особенно актуальны для BigData.
Проблемы legacy-проектов в Big Data - это общие проблемы для больших проектов с долгой историей, такие как отсутствие актуальной документации, сложность системы в целом и так далее.
Однако для Big Data это дополнительно все осложняется еще следующим:
1. Множество компонентов в одном проекте;
2. Невозможность применения единой архитектуры;
3. Декларативность инструментов программирования pipeline, скрывающих детали;
4. Каждый проект лишь часть ландшафта данных компании, что делает проблему важной;
Мы разработали инструмент, значительно облегчающий построение диаграмм объектов данных, и показывающих связи между ними на основе ряда довольно простых принципов.
По сути наш инструмент реализует построение каталога данных на основе артефактов проектов. Проект реализует подход, позволяющий извлекать из исходных кодов данные о dataflow проекта и строить общую картину описывающую ландшафт данных компании, создавая Data Catalog.
Это особый взгляд на построение Data Catalog обладающий рядом преимуществ, чему и посвящен доклад.
Ведущий консультант Центра компетенции Big Data
Neoflex
Видео
Другие доклады секции
Базы данных и системы хранения