Инженерия данных в эпоху LLM: опыт построения датасетов с триллионами токенов.

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Целевая аудитория

Разработчики, ML- и дата-инженеры, интересующиеся большими языковыми моделями, качеством обучающих данных и построением надёжных пайплайнов. Подойдёт всем, кто хочет разобраться, как устроен Pretrain LLM на практике.

Тезисы

В этом докладе поделимся нашим опытом построения масштабных пайплайнов подготовки данных для обучения больших языковых моделей. За последний год мы существенно развили подходы к генерации, очистке и валидации датасетов — особенно в условиях работы с десятками языков и триллионами токенов.

Обсудим новые методы отбора и разметки web-данных: как собрать датасет для pretrain, охватывающий множество языков, как обучать и применять классификаторы по различным критериям, как сравнивать подходы к фильтрации и зачем выделять тематические группы текстов. Покажем наши наработки по улучшению парсинга HTML-документов. Расскажем, как при помощи нового CPU-кластера на 20 тысяч ядер мы ускорили такие задачи, как семплинг данных, в тысячи раз.

Отдельное внимание уделим кодовым данным: расскажем, как мы используем LLM для фильтрации и аннотации кода, а также для генерации синтетических программ. Поделимся опытом работы с репозиториями в духе Qwen-Coder и покажем, как можно измерять обучающую ценность кодовых данных на практике.

В секции про математику обсудим шаблонные задачи с гарантированно верными решениями, эксперименты со смесями математических данных и автоматическую валидацию.

Отдельно остановимся на методах отбора web-текстов по специализированным доменам, как это реализовано в статье от Essential AI.

Покажем, как устроена наша инфраструктура для генерации триллионов токенов синтетики: как сегментируются и фильтруются тексты, как устроены reverse-prompt цепочки, LLM-заметки, QA-пары к текстам и как мы справлялись с падениями генераций при непрерывной нагрузке кластера из тысяч GPU для обеспечения 100% утилизации.

Завершим обзором будущих направлений: от инструктивных бенчмарков вроде SWE-bench до новых критериев фильтрации и алгоритмических задач с автоматической проверкой решений.

В школьные годы занимался олимпиадным программированием. Закончил бакалавриат ФКН ВШЭ, сейчас обучаюсь в совместной магистратуре ФКН и ШАД. Уже два года работаю в SberDevices в команде GigaChat, где занимаюсь подготовкой данных для обучения LLM. Сейчас руковожу командой из пяти человек — мы разрабатываем пайплайны для дедупликации, фильтрации, очистки и парсинга текстов, строим инфраструктуру для замера метрик и генерации синтетических данных, а также проводим масштабные эксперименты для валидации гипотез.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)