Как организовать работу с метаданными для большого бизнеса BigData и машинное обучение

Доклад принят в программу конференции

Badoo

Разработчик высоконагруженных систем с элементами BigData.

Telegram: @Alexxz

Тезисы

Это доклад о подходах к организации работы с данными на разных масштабах зрелости BI-системы. В качестве примера — развитие Business Intelligence-системы в крупной компании. Однозначных ответов и советов нет ни у кого, но я расскажу о подходах, которые сработали и не сработали у нас. Интересно, что в основе лежит грамотная автоматизированная работа с метаданными.

Рассмотрим основные технические и организационные трудности и как их решать.
Кто отвечает за качество данных? Как разделить зоны ответственности? Как мотивировать команды разработки пользоваться BI-инструментами?

Классический ETL и daily based reporting.

Как собрать в одном хранилище данных много разных источников? Как обеспечить обратную совместимость при динамичном развитии проекта? Как разделить релизы разных компонентов? Кто отвечает за качество данных? Как предотвратить превращение data lake в data swamp?

Логи, клик-стрим или эвент-стрим.
Как перестать писать ETL-код для очередного лога событий? Как сделать универсальную шину событий? Как засунуть слабо структурированные данные в реляционную СУБД? Как подружить технические метрики с бизнесовыми? Как подружить клиентские события с серверными? Как мотивировать разработчика продукта пользоваться инструментами BI?

Архитектура данных, потоки данных, версионирование

Синхронизация данных, параллельная обработка, CDN

Архитектуры / другое

Управление изменениями, управление требованиями

Проектирование информационных систем

Проектные артефакты, инструментарий

Аналитика / другое

ETL