Особенности архитектуры платформы обработки и хранения данных для обучения GenAI-моделей или что делать, когда сырых данных - десятки петабайт и это не Parquet
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Архитектура платформы данных для обучения GenAI моделей подразумевает обработку больших массивов открытых данных, которые хранятся в самых разных форматах. Особенно интересен для обработки текстовых данных так называемый WARC-формат - строковый формат веб-архивов, которые хранят “срезы" интернета. Из определения понятно, что для BigData решений он не является самым удобным.
В докладе я рассмотрю:
- что такое WARC архивы и открытый массив архивов Common Crawl
- с чем приходится сталкиваться при разработке платформы данных, когда основной массив данных лежит в нестандартных для BigData WARC архивах
- почему нас в результате спасает Parquet и Apache Iceberg
- каких результатов мы уже достигли и как еще можно ускорить процессинг данных
Тимлид команды разработки BigData решений с опытом более 10 лет в IT.
Работаю в Sber, вместе с командой готовим данные для GenAI моделей Сбера и приближаем будущее.
Видео
Другие доклады секции
Data Engineering