Как устроены данные GigaChat: петабайты текстов и триллионы токенов.

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

История тимлида инфраструктурной команды ГигаЧата о том, как Сбер собирает данные для своей LLM. В докладе будет про сбор данных, генерацию синтетики, удаление дупликатов и все то, что нужно для обучения действительно большой модели.

Целевая аудитория

Разработчики, ML- и дата-инженеры, интересующиеся большими языковыми моделями, качеством обучающих данных и построением надёжных пайплайнов. Подойдёт всем, кто хочет разобраться, как устроен Pretrain LLM на практике.

Тезисы

В этом докладе поделимся нашим опытом построения масштабных пайплайнов подготовки данных для обучения больших языковых моделей.

Обсудим web-данные: парсинг HTML, детекцию языка, дедупликацию и фильтрацию текстов на масштабе триллионов токенов. Покажем, как за счёт новой CPU инфраструктуры мы ускорили семплинг данных и другие задачи в тысячи раз.

Код и математика: как используем LLM для фильтрации и аннотации кода, генерируем синтетические программы и обучаемся на уровне репозиториев; как собираем математические задачи с гарантированными ответами, смешиваем датасеты и проводим автоматическую валидацию. Поясним, как измеряем обучающую ценность этих источников.

Покажем, как устроена наша инфраструктура для генерации триллионов токенов синтетики: сегментация и фильтрация текстов, reverse-prompt цепочки, LLM-заметки, QA-пары к текстам и как мы справлялись с падениями генераций при непрерывной нагрузке кластера из тысяч GPU для обеспечения 100% утилизации.

Завершим взглядом вперёд: от инструктивных бенчмарков до новых сценариев синтетических данных.

В школьные годы занимался олимпиадным программированием. Закончил бакалавриат ФКН ВШЭ, сейчас обучаюсь в совместной магистратуре ФКН и ШАД. Уже два года работаю в SberDevices в команде GigaChat, где занимаюсь подготовкой данных для обучения LLM. Сейчас руковожу командой из пяти человек — мы разрабатываем пайплайны для дедупликации, фильтрации, очистки и парсинга текстов, строим инфраструктуру для замера метрик и генерации синтетических данных, а также проводим масштабные эксперименты для валидации гипотез.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)