Обучение GigaChat MAX

Нейронные сети и искусственный интеллект (data science)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В мире очень мало людей, которые именно учат свою LLM, а не вносят мелкие изменения в готовую. Когда один из таких людей рассказывает о том, как это делается, надо просто приходить и слушать. Без вариантов.

Целевая аудитория

ML-/DL-разработчики и инженеры.

Тезисы

Осенью этого года мы запустили одну из самых сильных языковых моделей, говорящих на русском, — GigaChat MAX
Эта модель — синтез самых современных технологий распределенного обучения и качественных данных.

Мы много работали над качеством обучения, его скоростью и стабильностью и хотим поделиться результатами: расскажем об оптимизациях NCCL, технологиях распределенного обучения и тренировке модели в пониженной точности.

Руководит разработкой LLM-претрейнов в команде GigaChat, а также читает в РЭШ лекции по анализу данных.

Видео

Другие доклады секции

Нейронные сети и искусственный интеллект (data science)