Иван Басков на HighLoad++ 2024

Как мы варим данные Gigachat Pretrain

Нейронные сети и искусственный интеллект (data science)

3 декабря, 14:40, Зал «11. Белу-Оризонти (2 этаж)»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Мечтаешь о своей LLM? В Интернете петабайты информации, что само по себе уже вызов. Но как выбрать нужное и полезное? Иван поделится секретами кластеризации, дедупликации и отбора ценных данных для обучения, с акцентом на нюансы кодовых и математическиех материалов. Приходи!

Целевая аудитория

Дата-сайентисты, которым интересны фундаментальные технологии LLM.

Тезисы

Скачать презентацию Все презентации конференции

В докладе рассматриваются ключевые аспекты подготовки данных для обучения LLM на примере Gigachat. Качество данных не менее важно, чем архитектура модели, ведь от их состава зависит, насколько эффективно модель сможет обучаться (вы удивитесь, насколько велика может быть разница между наборами данных). Однако собрать данные с интернета — это только начало: необходимо тщательно отбирать данные, которые действительно помогут модели «умнеть», так как не все доступные данные одинаково полезны.

Мы обсудим, что такое претрейн-данные и как выглядит карта кластеров веб-данных, охватывающая русскоязычные и англоязычные сегменты сети. Поговорим про отбор данных: удаление дубликатов на больших объемах, классификацию по обучающей ценности, и эксперименты, которые помогают оценить их качество. Также рассмотрим вызовы кластеризации эмбеддингов с миллиардами объектов.

Кроме того, уделим особое внимание кодовым и математическим данным: их классификации, генерации и проверке на корректность. Например, если вы создаете задачу для олимпиадного программирования — как убедиться, что решение, реализованное вами, действительно правильное? Поделимся результатами экспериментов и методами оценки качества таких данных.

Иван Басков

SberDevices

Делал голос Алисы, сейчас делает данные для Гигачата.

SberDevices

SberDevices — российская IT-компания полного цикла. R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение, лицевая и голосовая биометрия. Производит умные устройства, разрабатывает высокотехнологичные сервисы для бизнеса, делает масштабные ML-проекты, LLM, высоконагруженные системы и технологии обработки Big Data. В портфолио SberDevices — SberBox, SberJazz, GigaChat, Kandinsky и другие легенды.