Синтетические задачи в стиле Codeforces для претрейна GigaChat
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Качество больших языковых моделей сильно зависит от масштаба и качества данных, а объём “хорошего” естественного текста ограничен. Поэтому всё чаще для обучения LLM используют синтетические данные — но вместе с этим появляется новая проблема: синтетику легко “нагенерировать”, а вот надёжно проверить её качество гораздо сложнее.
В докладе я расскажу про то, как мы построили конвейер генерации полностью синтетических задач по олимпиадному программированию и их автоматической валидации. По ходу работы мы придумали как с помощью LLM писать тесты, выстроили массовую проверку решений (сотни миллионов прогонов кода) и нашли способ надёжно отбраковывать задачи и решения в условиях, когда нет эталонных ответов. Итоговые данные мы использовали в претрейне GigaChat Ultra.
Занимаюсь подготовкой синтетических данных для pretraining GigaChat: генерация и контроль качества. Закончил ШАД, интересуюсь тем, как данные и архитектурные решения влияют на поведение больших моделей. Люблю собирать сложные агентные системы и превращать идеи в работающие пайплайны. В свободное время пишу музыку.
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)