В этом докладе поделимся нашим опытом построения масштабных пайплайнов подготовки данных для обучения больших языковых моделей.
Обсудим web-данные: парсинг HTML, детекцию языка, дедупликацию и фильтрацию текстов на масштабе триллионов токенов. Покажем, как за счёт новой CPU инфраструктуры мы ускорили семплинг данных и другие задачи в тысячи раз.
Код и математика: как используем LLM для фильтрации и аннотации кода, генерируем синтетические программы и обучаемся на уровне репозиториев; как собираем математические задачи с гарантированными ответами, смешиваем датасеты и проводим автоматическую валидацию. Поясним, как измеряем обучающую ценность этих источников.
Покажем, как устроена наша инфраструктура для генерации триллионов токенов синтетики: сегментация и фильтрация текстов, reverse-prompt цепочки, LLM-заметки, QA-пары к текстам и как мы справлялись с падениями генераций при непрерывной нагрузке кластера из тысяч GPU для обеспечения 100% утилизации.
Завершим взглядом вперёд: от инструктивных бенчмарков до новых сценариев синтетических данных.