Особенности архитектуры платформы обработки и хранения данных для обучения GenAI-моделей или что делать, когда сырых данных - десятки петабайт и это не Parquet

Data Engineering

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Data Engineers Data Architect

Тезисы

Архитектура платформы данных для обучения GenAI моделей подразумевает обработку больших массивов открытых данных, которые хранятся в самых разных форматах. Особенно интересен для обработки текстовых данных так называемый WARC-формат - строковый формат веб-архивов, которые хранят “срезы" интернета. Из определения понятно, что для BigData решений он не является самым удобным.

В докладе я рассмотрю:

- что такое WARC архивы и открытый массив архивов Common Crawl
- с чем приходится сталкиваться при разработке платформы данных, когда основной массив данных лежит в нестандартных для BigData WARC архивах
- почему нас в результате спасает Parquet и Apache Iceberg
- каких результатов мы уже достигли и как еще можно ускорить процессинг данных

Александр Непочатых

Sber

Тимлид команды разработки BigData решений с опытом более 10 лет в IT.
Работаю в Sber, вместе с командой готовим данные для GenAI моделей Сбера и приближаем будущее.