Клиентоориентированный Data Lake в игровой компании Базы данных и системы хранения

Доклад принят в программу конференции
Максим Пчелин
Mail.ru Group

Руководитель разработки BI-DWH в MY.GAMES – игровое направление Mail.ru Group. Руководит созданием сервисов по работе с данными для бизнеса (портал отчетности) и для аналитиков (инструменты для DS).

Telegram: @PchelinM
Email: m.pchelin@corp.mail.ru
Дина Сафина
Mail.ru Group

Ведущий разработчик DWH в MY.GAMES – игровое направление Mail.ru Group. Один из основателей комьюнити по Airflow в России.

Telegram: @aniiid
Email: d.safina@corp.mail.ru
Тезисы

Как быть, если вы строите хранилище и сервисы по работе с данными для крупнейшей в России интернет-компании? При этом надо удовлетворить потребности в статистике множества независимых проектов, у каждого из которых своя уникальная инфраструктура, процессы и потребности.

В докладе мы расскажем о нашем опыте создания единого аналитического Data Lake, обеспечивающего данными все проекты MY.GAMES – игрового направления Mail.ru Group.

Мы обсудим:
- почему мы реализовали именно Data Lake, а не что-то попроще;
- почему мы выбрали Hadoop и как мы его готовим;
- как мы контролируем огромное количество потоков данных и зачем нам Airflow;
- почему Data Lake должен быть клиентоориентированным;
- проблемы, боли, несчастья и успехи реализации Data Lake;
- стоило ли оно всего этого и как облегчить жизнь команде разработки.

Критерии выбора технологий для проекта
,
Проектирование информационных систем
,
Внедрение и поддержка
,
Hadoop
,
ETL

Другие доклады секции Базы данных и системы хранения