Как устроены данные GigaChat: петабайты текстов и триллионы токенов

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

История тимлида инфраструктурной команды ГигаЧата о том, как Сбер собирает данные для своей LLM. В докладе будет про сбор данных, генерацию синтетики, удаление дупликатов и все то, что нужно для обучения действительно большой модели.

Целевая аудитория

Разработчики, ML- и дата-инженеры, интересующиеся большими языковыми моделями, качеством обучающих данных и построением надежных пайплайнов. Подойдет всем, кто хочет разобраться, как устроен Pretrain LLM на практике.

Тезисы

В этом докладе поделимся нашим опытом построения масштабных пайплайнов подготовки данных для обучения больших языковых моделей.

Обсудим web-данные: парсинг HTML, детекцию языка, дедупликацию и фильтрацию текстов на масштабе триллионов токенов. Покажем, как за счет новой CPU инфраструктуры мы ускорили семплинг данных и другие задачи в тысячи раз.

Код и математика: как используем LLM для фильтрации и аннотации кода, генерируем синтетические программы и обучаемся на уровне репозиториев; как собираем математические задачи с гарантированными ответами, смешиваем датасеты и проводим автоматическую валидацию. Поясним, как измеряем обучающую ценность этих источников.

Покажем, как устроена наша инфраструктура для генерации триллионов токенов синтетики (сегментация и фильтрация текстов, reverse-prompt-цепочки, LLM-заметки, QA-пары к текстам) и как мы справлялись с падениями генераций при непрерывной нагрузке кластера из тысяч GPU для обеспечения 100% утилизации.

Завершим взглядом вперед: от инструктивных бенчмарков до новых сценариев синтетических данных.

В школьные годы занимался олимпиадным программированием. Окончил бакалавриат ФКН ВШЭ, сейчас обучаюсь в совместной магистратуре ФКН и ШАД. Уже два года работает в SberDevices в команде GigaChat, где занимается подготовкой данных для обучения LLM. Сейчас руководит командой из пяти человек — она разрабатывает пайплайны для дедупликации, фильтрации, очистки и парсинга текстов, строит инфраструктуру для замера метрик и генерации синтетических данных, а также проводит масштабные эксперименты для валидации гипотез.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)