Клиентоориентированный Data Lake в игровой компании Базы данных и системы хранения
Руководитель разработки BI-DWH в MY.GAMES – игровое направление Mail.ru Group. Руководит созданием сервисов по работе с данными для бизнеса (портал отчетности) и для аналитиков (инструменты для DS).
Email: m.pchelin@corp.mail.ru
Ведущий разработчик DWH в MY.GAMES – игровое направление Mail.ru Group. Один из основателей комьюнити по Airflow в России.
Email: d.safina@corp.mail.ru
Как быть, если вы строите хранилище и сервисы по работе с данными для крупнейшей в России интернет-компании? При этом надо удовлетворить потребности в статистике множества независимых проектов, у каждого из которых своя уникальная инфраструктура, процессы и потребности.
В докладе мы расскажем о нашем опыте создания единого аналитического Data Lake, обеспечивающего данными все проекты MY.GAMES – игрового направления Mail.ru Group.
Мы обсудим:
- почему мы реализовали именно Data Lake, а не что-то попроще;
- почему мы выбрали Hadoop и как мы его готовим;
- как мы контролируем огромное количество потоков данных и зачем нам Airflow;
- почему Data Lake должен быть клиентоориентированным;
- проблемы, боли, несчастья и успехи реализации Data Lake;
- стоило ли оно всего этого и как облегчить жизнь команде разработки.