Как организовать работу с метаданными для большого бизнеса BigData и машинное обучение

Доклад принят в программу конференции
Алексей Еремихин
Badoo

Разработчик высоконагруженных систем с элементами BigData.

Telegram: @Alexxz
Тезисы

Это доклад о подходах к организации работы с данными на разных масштабах зрелости BI-системы. В качестве примера — развитие Business Intelligence-системы в крупной компании. Однозначных ответов и советов нет ни у кого, но я расскажу о подходах, которые сработали и не сработали у нас. Интересно, что в основе лежит грамотная автоматизированная работа с метаданными.

Рассмотрим основные технические и организационные трудности и как их решать.
Кто отвечает за качество данных? Как разделить зоны ответственности? Как мотивировать команды разработки пользоваться BI-инструментами?

Классический ETL и daily based reporting.

Как собрать в одном хранилище данных много разных источников? Как обеспечить обратную совместимость при динамичном развитии проекта? Как разделить релизы разных компонентов? Кто отвечает за качество данных? Как предотвратить превращение data lake в data swamp?

Логи, клик-стрим или эвент-стрим.
Как перестать писать ETL-код для очередного лога событий? Как сделать универсальную шину событий? Как засунуть слабо структурированные данные в реляционную СУБД? Как подружить технические метрики с бизнесовыми? Как подружить клиентские события с серверными? Как мотивировать разработчика продукта пользоваться инструментами BI?

Архитектура данных, потоки данных, версионирование
,
Синхронизация данных, параллельная обработка, CDN
,
Архитектуры / другое
,
Управление изменениями, управление требованиями
,
Проектирование информационных систем
,
Проектные артефакты, инструментарий
,
Аналитика / другое
,
ETL

Другие доклады секции BigData и машинное обучение