ETL-сервисы и таски для Такси, Еды и Лавки. Как мы разрабатываем платформу управления данными BigData и машинное обучение

Доклад принят в программу конференции

Тезисы

Скачать презентацию Все презентации конференции

Такси, Еда и Лавка — компания с устойчивой Data Driven-культурой, где все решения анализируются и проверяются с оглядкой на данные, а скрипт на Python или SQL может написать любой. Мы начали строить централизованное Хранилище Данных (Data Warehouse, DWH) в Такси порядка 4 лет назад. Год назад провели масштабный ребрендинг и стали себя гордо именовать DMP, Data Managment Platform. На текущий момент у нас порядка 5 сотен бизнес-пользователей, пара сотен продвинутых потребителей данных — аналитиков, data scientist'ов и бэкенд-разработчиков из смежных команд. Объем Data Lake на YT (in-house-аналог Hadoop, https://habr.com/ru/company/yandex/blog/311104/) более 1ПБ и ежемесячный прирост по 100 Тб. Целевое эффективное пространство в DWH на Greenplum 0.5 Пб. Каждый день в нашей инфраструктуре запускаются сотни тысяч ETL-процессов. Мы поддерживаем ETL на MapReduce, Spark, трех диалектах SQL и голом Python. Мы выстроили свои процессы и инфраструктуру таким образом, что к нам могут контрибьютить аналитики данных и бэкенд-разработчики.

В своем докладе я расскажу:
1. Немного деталей про DMP в Яндекс.Такси, Еде и Лавке: какие данные хранятся в Data Lake и в каком формате, какие слои и потоки данных есть в DWH: как мы несем данные от десятков различных источников до дашбордов в Tableau и OLAP-кубов в MS SSAS.
2. Почему мы решили вместо готового ETL-инструмента написать свой, и как он работает с такими вычислительными системами, как Spark, Greenplum, ClickHouse и YT.
3. Как устроена наша монорепа из ETL-сервисов и процесс разработки, отладки и деплоя.
4. Технические подробности: запуск ETL-процессов в двух дата-центрах, организация тяжелых потоков данных между большими хранилищами, мониторинг наших процессов, проверки качества данных и многое другое.
5. Про взаимодействие между дата-инженерами и бэкенд-разработчиками и аналитиками данных на уровне кода.

Владимир Верстов

Яндекс Go

Руководитель отдела разработки инфраструктурных продуктов в Яндекс Go.

Работает в IT с 2012 года. 5 лет занимался enterprise-разработкой в консалтинге, прошел путь от системного аналитика до product owner’а, Team & Tech Lead’а своего продукта. Последние 8 лет работает в Яндекс Go и прошел путь от разработчика до руководителя кросс-функциональной команды. Команда разрабатывает различные инфраструктурные продукты, которые помогают различным бизнес-юнитам внутри Яндекса достигать своих продуктовых целей.

Другие доклады секции BigData и машинное обучение

Дмитрий Кондрашкин

Яндекс

Хранилище фич или какая-то дичь?

Леонид Блохин

Provectus

Возможности Spark Streaming для аналитики данных в потоковом режиме

Артем Гогин

GridDynamics

Даниил Бурлаков

Яндекс

ML в промышленности: задачи и проблемы

Андрей Зубков

ЕВРАЗ