LLM Performance Playbook: как выбрать модель и конфигурацию сервинга на основе воспроизводимых тестов
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
LLM в продакшене - это не только качество ответов, но и управляемая производительность под реальной нагрузкой. В self-hosted сценариях на итог влияет много факторов: от выбранного движка до объёма памяти. В докладе я покажу, как мы в Магните построили воспроизводимый пайплайн нагрузочного тестирования для выбора подходящей LLM и настройки конфигов сервинга - с упором на возможность повторить это на своём железе. Мы разберём, как организовать нагрузочные тесты на Locust для корректного измерения TTFT/ITL/TPS, находить порог стабильности и избежать искажения результатов из-за упрощённых условий тестирования. Отдельно продемонстрирую, какие сигналы в observability помогают объяснять деградации и подтверждать эффект изменений.
4+ лет в Data Science. В Тинькофф (Т‑Банк) автоматизировал аналитические процессы, затем строил и масштабировал ML‑сервисы в Yandex Crowd; сейчас разрабатывает и внедряет Copilot в Magnit Tech. Преподаёт в Центральном университете и на ФКН НИУ ВШЭ, автор курса «Внедрение больших языковых моделей в маркетинг и управление продуктом».
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)