Построение Data Catalog как Unboxing Big Data проектов

BigData и машинное обучение

Доклад отклонён

Тезисы

Проблема прозрачности процессов работы с данными особенно актуальны для BigData.

Проблемы legacy-проектов в Big Data - это общие проблемы для больших проектов с долгой историей, такие как отсутствие актуальной документации, сложность системы в целом и так далее.

Однако для Big Data это дополнительно все осложняется еще следующим:

1. Множество компонентов в одном проекте;
2. Невозможность применения единой архитектуры;
3. Декларативность инструментов программирования pipeline, скрывающих детали;
4. Каждый проект лишь часть ландшафта данных компании, что делает проблему важной;

Мы разработали инструмент, значительно облегчающий построение диаграмм объектов данных, и показывающих связи между ними на основе ряда довольно простых принципов.

По сути наш инструмент реализует построение каталога данных на основе артефактов проектов. Проект реализует подход, позволяющий извлекать из исходных кодов данные о dataflow проекта и строить общую картину описывающую ландшафт данных компании, создавая Data Catalog.

Это особый взгляд на построение Data Catalog обладающий рядом преимуществ, чему и посвящен доклад.

Ведущий консультант Центра компетенции Big Data

Neoflex

Neoflex создает ИТ-платформы для цифровой трансформации бизнеса, помогая заказчикам получать устойчивые конкурентные преимущества в цифровую эпоху. Мы фокусируемся на заказной разработке программного обеспечения и внедрении сложных информационных систем, используя передовые технологии и подходы. Наш отраслевой опыт и технологическая экспертиза, усиленная собственными акселераторами разработки, позволяют решать бизнес-задачи любого уровня сложности. Среди наших заказчиков более половины российских банков, входящих в топ-100, а также компании из 21 страны Европы, Азии и Африки.

Видео

Другие доклады секции

BigData и машинное обучение