LLM Performance Playbook: как выбрать модель и конфигурацию сервинга на основе воспроизводимых тестов

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

ML-инженеры и MLOps-специалисты, которые выбирают и настраивают LLM для production; Менеджеры и тимлиды ML-команд, принимающие решения о выборе модели и инфраструктуры; Архитекторы LLM-решений в корпоративных системах, а также backend-разработчики, работающие с LLM API; инженеры инфраструктуры, оптимизирующие сервинг; QA-специалисты, проектирующие тесты для LLM-систем.

Тезисы

LLM в продакшене - это не только качество ответов, но и управляемая производительность под реальной нагрузкой. В self-hosted сценариях на итог влияет много факторов: от выбранного движка до объёма памяти. В докладе я покажу, как мы в Магните построили воспроизводимый пайплайн нагрузочного тестирования для выбора подходящей LLM и настройки конфигов сервинга - с упором на возможность повторить это на своём железе. Мы разберём, как организовать нагрузочные тесты на Locust для корректного измерения TTFT/ITL/TPS, находить порог стабильности и избежать искажения результатов из-за упрощённых условий тестирования. Отдельно продемонстрирую, какие сигналы в observability помогают объяснять деградации и подтверждать эффект изменений.

4+ лет в Data Science. В Тинькофф (Т‑Банк) автоматизировал аналитические процессы, затем строил и масштабировал ML‑сервисы в Yandex Crowd; сейчас разрабатывает и внедряет Copilot в Magnit Tech. Преподаёт в Центральном университете и на ФКН НИУ ВШЭ, автор курса «Внедрение больших языковых моделей в маркетинг и управление продуктом».

Видео