В этом докладе поделимся нашим опытом построения масштабных пайплайнов подготовки данных для обучения больших языковых моделей.
Обсудим web-данные: парсинг HTML, детекцию языка, дедупликацию и фильтрацию текстов на масштабе триллионов токенов. Покажем, как за счет новой CPU инфраструктуры мы ускорили семплинг данных и другие задачи в тысячи раз.
Код и математика: как используем LLM для фильтрации и аннотации кода, генерируем синтетические программы и обучаемся на уровне репозиториев; как собираем математические задачи с гарантированными ответами, смешиваем датасеты и проводим автоматическую валидацию. Поясним, как измеряем обучающую ценность этих источников.
Покажем, как устроена наша инфраструктура для генерации триллионов токенов синтетики (сегментация и фильтрация текстов, reverse-prompt-цепочки, LLM-заметки, QA-пары к текстам) и как мы справлялись с падениями генераций при непрерывной нагрузке кластера из тысяч GPU для обеспечения 100% утилизации.
Завершим взглядом вперед: от инструктивных бенчмарков до новых сценариев синтетических данных.