В докладе рассматриваются ключевые аспекты подготовки данных для обучения LLM на примере Gigachat. Качество данных не менее важно, чем архитектура модели, ведь от их состава зависит, насколько эффективно модель сможет обучаться (вы удивитесь, насколько велика может быть разница между наборами данных). Однако собрать данные с интернета — это только начало: необходимо тщательно отбирать данные, которые действительно помогут модели «умнеть», так как не все доступные данные одинаково полезны.
Мы обсудим, что такое претрейн-данные и как выглядит карта кластеров веб-данных, охватывающая русскоязычные и англоязычные сегменты сети. Поговорим про отбор данных: удаление дубликатов на больших объемах, классификацию по обучающей ценности, и эксперименты, которые помогают оценить их качество. Также рассмотрим вызовы кластеризации эмбеддингов с миллиардами объектов.
Кроме того, уделим особое внимание кодовым и математическим данным: их классификации, генерации и проверке на корректность. Например, если вы создаете задачу для олимпиадного программирования — как убедиться, что решение, реализованное вами, действительно правильное? Поделимся результатами экспериментов и методами оценки качества таких данных.