Конференция завершена.

Ждем вас

на HighLoad++

в следующий раз!

Как устроены данные GigaChat: петабайты текстов и триллионы токенов

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

История тимлида инфраструктурной команды ГигаЧата о том, как Сбер собирает данные для своей LLM. В докладе будет про сбор данных, генерацию синтетики, удаление дупликатов и все то, что нужно для обучения действительно большой модели.

Целевая аудитория

Разработчики, ML- и дата-инженеры, интересующиеся большими языковыми моделями, качеством обучающих данных и построением надежных пайплайнов. Подойдет всем, кто хочет разобраться, как устроен Pretrain LLM на практике.

Тезисы

В этом докладе поделимся нашим опытом построения масштабных пайплайнов подготовки данных для обучения больших языковых моделей.

Обсудим web-данные: парсинг HTML, детекцию языка, дедупликацию и фильтрацию текстов на масштабе триллионов токенов. Покажем, как за счет новой CPU инфраструктуры мы ускорили семплинг данных и другие задачи в тысячи раз.

Код и математика: как используем LLM для фильтрации и аннотации кода, генерируем синтетические программы и обучаемся на уровне репозиториев; как собираем математические задачи с гарантированными ответами, смешиваем датасеты и проводим автоматическую валидацию. Поясним, как измеряем обучающую ценность этих источников.

Покажем, как устроена наша инфраструктура для генерации триллионов токенов синтетики (сегментация и фильтрация текстов, reverse-prompt-цепочки, LLM-заметки, QA-пары к текстам) и как мы справлялись с падениями генераций при непрерывной нагрузке кластера из тысяч GPU для обеспечения 100% утилизации.

Завершим взглядом вперед: от инструктивных бенчмарков до новых сценариев синтетических данных.

GigaChat LLM Pretrain Data Pipelines Lead

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)