Эффективный online RL для больших MoE LLM: асинхронный пайплайн, стабильность и ускорения
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Online RL - один из ключевых этапов обучения современных LLM, однако его трудно масштабировать: синхронные on‑policy пайплайны быстро упираются в простои GPU, а при переходе на большие MOE модели проблем становится еще больше.
В докладе разберём, как построить действительно масштабируемый online RL-пайплайн, поделимся опытом команды GigaChat на примере обучения GigaChat 3 Ultra (700B): какие bottleneck’и проявляются в реальном сетапе, какие инфраструктурные решения критичны для стабильности и какие ускорения удаётся получить на практике.
Lead Deep Learning Engineer, руководит кросс-функциональной инфраструктурной командой внутри Pretrain Team GigaChat (SberDevices). Строит и развивает инфраструктуру для обучения крупных LLM, как на этапе pretrain, так и на этапе alignment: распределённое обучение, оптимизация производительности, автоматизация и надёжность внутренних ML-фреймворков. Интересуется задачами на стыке deep learning, системной инженерии и large-scale вычислений.
Активно участвовал в создании семейств моделей GigaChat 2 и GigaChat 3, включая самую большую open-source LLM-модель в Европе — GigaChat 3 Ultra.
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)