Эффективный online RL для больших MoE LLM: асинхронный пайплайн, стабильность и ускорения

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

ML/DL/LLM-инженеры, ML-инфра и backend/SRE, работающие с распределённым обучением и инференсом больших моделей, которым интересны практики масштабирования online RL/RLHF и MoE.

Тезисы

Online RL - один из ключевых этапов обучения современных LLM, однако его трудно масштабировать: синхронные on‑policy пайплайны быстро упираются в простои GPU, а при переходе на большие MOE модели проблем становится еще больше.

В докладе разберём, как построить действительно масштабируемый online RL-пайплайн, поделимся опытом команды GigaChat на примере обучения GigaChat 3 Ultra (700B): какие bottleneck’и проявляются в реальном сетапе, какие инфраструктурные решения критичны для стабильности и какие ускорения удаётся получить на практике.

Никита Ермолаев

SberDevices

Lead Deep Learning Engineer, руководит кросс-функциональной инфраструктурной командой внутри Pretrain Team GigaChat (SberDevices). Строит и развивает инфраструктуру для обучения крупных LLM, как на этапе pretrain, так и на этапе alignment: распределённое обучение, оптимизация производительности, автоматизация и надёжность внутренних ML-фреймворков. Интересуется задачами на стыке deep learning, системной инженерии и large-scale вычислений.
Активно участвовал в создании семейств моделей GigaChat 2 и GigaChat 3, включая самую большую open-source LLM-модель в Европе — GigaChat 3 Ultra.