Trino как основа Big Data ETL фреймворка

BigData и инфраструктура машинного обучения (data engineering)

Хранилища

Обработка данных

Доклад отозван

Мнение Программного комитета о докладе

Наверное, уже все слышали про Trino, но вряд ли кому приходило в голову использовать его в качестве ETL инструмента. Из доклада вы узнаете, что такой подход работает даже на масштабах X5, и, более того, дает значительную экономию в ресурсах.

Целевая аудитория

Дата инженеры и Архитекторы аналитических решений

Тезисы

Все презентации конференции

Data Lake является хранилищем сырых данных в Аналитической платформе X5 . Уже много лет данные в него загружается самописным фреймворком при помощи Sqoop. Это крайне простая и удобная утилита, отлично справляющаяся со своими задачами. Мы даже её портировали на Hadoop3, хотя для него нет готовых сборок, но она больше не развивается и уже морально устарела.
Было принято решение найти ему замену, но как оказалось Sqoop не оставил приемников.
Конечно же есть универсальный швейцарский нож Spark который справится с любыми задачами. Но после использования элементарной утилиты не хотелось утяжелять решение.

Решением ситуации для нас было использовать Trino. Он активно используется в Big Data стеке для построения как распределенынй SQL движок, но и отлично подходит для достаточно простых задач интеграции. Это конечно не консольная утилита для загруки, но ключевым приемущестовом стала настройка интеграции при помощи SQL.

В докладе расскажу вам о нашем опыте применения Trino для загрузки данных из других источников

Антон Стеблянко

T1 Иннотех

Фанат Аналитических Хранилищ Данных.