Больше не значит медленнее: Практики инференса больших LLM
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Мы расскажем о том, как делать инференс гигантских Mixture-of-Experts моделей. Разберем на практике, как построить и масштабировать гетерогенный кластер, в котором правильная архитектура сети и памяти становится важнее "голых" петафлопс.
14 лет в IT. Успел поработать над проектами в Intel, Яндекс и Сбер.
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)