Как построить Data Lineage на логах Apache Spark

BigData и инфраструктура машинного обучения (data engineering)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе рассматривается опыт создания полноценного инструмента Data Lineage для Apache Spark на базе инструментов с открытым исходным кодом. Описываются основные компоненты решения, такие как собственный парсер логов, витрина Data Lineage, Data Catalog на базе Apache Atlas и дашборд в QlikSense.

Целевая аудитория

CDO, Data-инженеры, Data-аналитики.

Тезисы

Расскажу, как мы быстро и дешево сделали полноценный инструмент Data Lineage для Apache Spark в одном из крупнейших хранилищ страны. Data Lineage — информация о взаимосвязях данных от источников до конечных потребителей. Слушатели смогут понять, как воспроизвести способ формирования Data Lineage в своей компании, как его можно использовать и какие есть ограничения.

Руководитель команд разработки витрин данных.

Сбер

Сбер — это современный стек технологий, драйвовые проекты и команда единомышленников. У них около 3 000 продуктовых команд и огромное профессиональное IT-сообщество. Работают над созданием удобных онлайн-сервисов в самых разных сферах.

Видео

Другие доклады секции

BigData и инфраструктура машинного обучения (data engineering)