vLLM под капотом: техники реального ускорения

GenAI и большие языковые модели (LLM)

Фреймворки
Python
Оптимизация
ML

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Backend-разработчики, ML/LLM-инженеры. Те, кто делают инференс LLM.

Тезисы

При инференсе больших мультимодальных decode-only LLM-моделей (20+ Гб) на десятках миллионов объектов команды сталкиваются с огромными временными и ресурсными затратами. В нашем случае инференс 50 миллионов объявлений в Avito занимал неприемлемо много времени. Глубокое погружение в архитектуру фреймворка vLLM и понимание его внутреннего устройства позволило ускорить инференс в 6 раз.

На встрече разберем работу vLLM от простого к сложному: как формируется промпт, работу scheduling, execution и memory management слоев, механизмы KV-cache, CUDA-графы и различные бэкенды для операций внимания. Особое внимание уделим практическим аспектам: как правильно настраивать параметры vLLM, какие конфигурации дают максимальную пропускную способность. Проведем ряд экспериментов на разном железе.

Встреча будет полезена ML-инженерам и backend-разработчикам, которые работают с большими VLM в production и сталкиваются с задачами массового инференса. Вы получите практические техники оптимизации, которые можно применить к любым задачам с vLLM, независимо от специфики модели.

Интересуется высоконагруженными распределенными системами и машинным обучением. В управленческом плане фокусируется на построении высокопроизводительных команд и работе на результат.

В настоящее время занимается развитием полноты поиска в Avito.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)