Централизованный self-service ETL. О системе автоматизации, умеющей эффективно и дешево двигать данные между десятками систем
Доклад принят в программу конференции
Целевая аудитория
Тезисы
С ростом продукта и развитием data-driven-подхода мы хотим обеспечивать наших коллег простым и удобным способом автоматизировать трансформацию и батч-транзит данных между системами с целью изучать их и проводить продуктовую/бизнес-аналитику.
Ключом к достижению этой цели стало отделение декларативной части ELT-процессов от функциональной. В итоге получился инструмент, который позволяет аналитикам и командам разработки самим автоматизировать свою работу с данными. А дата-инженеры, свободные от написания рутинных пайплайнов, начинают рассказывать про хорошие практики, улучшать платформу данных, работать над её скоростью, стабильностью и денежной эффективностью, внедрять новые абстрактные пути движения данных, а иногда и целые аналитические инструменты.
* Автоматизация расчетов для нового интересного отчета за 15 минут.
* Простой способ обеспечить Data quality.
* 20+ видов интеграций с информационными системами для отправки и получения данных.
* Прозрачный Data lineage.
* Возможность запустить любой код как часть графа задач.
* Удобный инструментарий для запуска задач и мониторинга.
* Около 2000 ежедневных задач на обработку нескольких петабайт данных в месяц, обновление 300 отчетов в Tableau для сотен пользователей, отправка информации во внешние аналитические системы и рекламные кабинеты.
Занимается дата-инженерией с применением DevOps; стремится, чтобы данные несли максимальную пользу.
Garage Eight
Видео
Другие доклады секции
Базы данных и системы хранения