Trino как основа Big Data ETL фреймворка

BigData и инфраструктура машинного обучения (data engineering)

Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Наверное, уже все слышали про Trino, но вряд ли кому приходило в голову использовать его в качестве ETL инструмента. Из доклада вы узнаете, что такой подход работает даже на масштабах X5, и, более того, дает значительную экономию в ресурсах.

Целевая аудитория

Дата инженеры и Архитекторы аналитических решений

Тезисы

Data Lake является хранилищем сырых данных в Аналитической платформе X5 . Уже много лет данные в него загружается самописным фреймворком при помощи Sqoop. Это крайне простая и удобная утилита, отлично справляющаяся со своими задачами. Мы даже её портировали на Hadoop3, хотя для него нет готовых сборок, но она больше не развивается и уже морально устарела.
Было принято решение найти ему замену, но как оказалось Sqoop не оставил приемников.
Конечно же есть универсальный швейцарский нож Spark который справится с любыми задачами. Но после использования элементарной утилиты не хотелось утяжелять решение.

Решением ситуации для нас было использовать Trino. Он активно используется в Big Data стеке для построения как распределенынй SQL движок, но и отлично подходит для достаточно простых задач интеграции. Это конечно не консольная утилита для загруки, но ключевым приемущестовом стала настройка интеграции при помощи SQL.

В докладе расскажу вам о нашем опыте применения Trino для загрузки данных из других источников


Фанат Аналитических Хранилищ Данных.

X5 Tech

IT-компания и основной цифровой партнер торговых сетей и бизнесов X5 Group. Команда из более 4500 специалистов разрабатывает решения, которые помогают 358 тысячам сотрудников группы работать с максимальным технологическим комфортом, а миллионам покупателей быстро и удобно покупать свежие продукты.

Видео