Больше не значит медленнее: Практики инференса больших LLM

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Целевая аудитория

Senior MLOps, Inference иженеры. Те, кто делают инференс ллмок.

Тезисы

Мы расскажем о том, как делать инференс гигантских Mixture-of-Experts моделей. Разберем на практике, как построить и масштабировать гетерогенный кластер, в котором правильная архитектура сети и памяти становится важнее "голых" петафлопс.

14 лет в IT. Успел поработать над проектами в Intel, Яндекс и Сбер.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)