Рамиль Мамедов на HighLoad++ 2024

Как построить Data Lineage на логах Apache Spark

BigData и инфраструктура машинного обучения (data engineering)

2 декабря, 17:00, Зал «10. Рио-де-Жанейро»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе рассматривается опыт создания полноценного инструмента Data Lineage для Apache Spark на базе инструментов с открытым исходным кодом. Описываются основные компоненты решения, такие как собственный парсер логов, витрина Data Lineage, Data Catalog на базе Apache Atlas и дашборд в QlikSense.

Целевая аудитория

CDO, Data-инженеры, Data-аналитики.

Тезисы

Скачать презентацию Все презентации конференции

Расскажу, как мы быстро и дешево сделали полноценный инструмент Data Lineage для Apache Spark в одном из крупнейших хранилищ страны. Data Lineage — информация о взаимосвязях данных от источников до конечных потребителей. Слушатели смогут понять, как воспроизвести способ формирования Data Lineage в своей компании, как его можно использовать и какие есть ограничения.

Рамиль Мамедов

Сбер

Руководитель команд разработки витрин данных.

Сбер

Сбер — это современный стек технологий, драйвовые проекты и команда единомышленников. У них около 3 000 продуктовых команд и огромное профессиональное IT-сообщество. Работают над созданием удобных онлайн-сервисов в самых разных сферах.