Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

  • Главная
  • 2024
  • Нейронные сети и искусственный интеллект (data science)

Как мы варим данные Gigachat Pretrain
Нейронные сети и искусственный интеллект (data science)

Доклад принят в Программу конференции
SberDevices

Делал голос Алисы, сейчас делает данные для Гигачата.

Тезисы

В докладе рассматриваются ключевые аспекты подготовки данных для обучения LLM на примере Gigachat. Качество данных не менее важно, чем архитектура модели, ведь от их состава зависит, насколько эффективно модель сможет обучаться (вы удивитесь, насколько велика может быть разница между наборами данных). Однако собрать данные с интернета — это только начало: необходимо тщательно отбирать данные, которые действительно помогут модели «умнеть», так как не все доступные данные одинаково полезны.

Мы обсудим, что такое претрейн-данные и как выглядит карта кластеров веб-данных, охватывающая русскоязычные и англоязычные сегменты сети. Поговорим про отбор данных: удаление дубликатов на больших объемах, классификацию по обучающей ценности, и эксперименты, которые помогают оценить их качество. Также рассмотрим вызовы кластеризации эмбеддингов с миллиардами объектов.

Кроме того, уделим особое внимание кодовым и математическим данным: их классификации, генерации и проверке на корректность. Например, если вы создаете задачу для олимпиадного программирования — как убедиться, что решение, реализованное вами, действительно правильное? Поделимся результатами экспериментов и методами оценки качества таких данных.

Другие доклады секции
Нейронные сети и искусственный интеллект (data science)

Rambler's Top100