Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Ускоряем обучения LLM более, чем на 45%: увеличиваем реальную утилизацию GPU при помощи оптимизации использования памяти, коммуникаций и здравого смысла.

Нейронные сети и искусственный интеллект (data science)

Python
Machine Learning

Доклад принят в программу конференции

Целевая аудитория

Доклад будет ценен всем тем, кто ставит обучения больших моделей и/или учит свои модели на кластерах с несколькими хостами.

Тезисы

У нас получилось ускорить наши претрейны в полтора раза, а соседние сценарии Alignment/DPO в 5-10 раз! Как и за счет чего можно достичь такой скорости?

В докладе я расскажу про:
- особенности обучения на больших кластерах и узкие места в современных претрейнах
- библиотеку YaFSDP, как способ побороть неэффективности в коммуникациях
- оптимизации памяти
- ценность 3d-4d параллелизма для обучения реально больших моделей
- о том, как мы ускорили MoE

Возможно, будут и другие секретные оптимизации. Мы ускоряем наши обучения постоянно, поэтому к моменту выступления доклад может наполниться еще одним-двумя трюками.

Руковожу разработкой претрейна YandexGPT

Яндекс

Яндекс, просто Яндекс

Видео