LLM Performance Playbook: как выбрать модель и конфигурацию сервинга на основе воспроизводимых тестов

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Спикер из MAGNIT TECH расскажет о выборе моделей для мозга их собственного ИИ-ассистента программирования. Новые языковые модели выходят каждые несколько недель, и этот доклад о том, как протестировать их и ответить на вопрос: хотим ли мы перейти на новую модель или нет?

Целевая аудитория

ML-инженеры и MLOps-специалисты, которые выбирают и настраивают LLM для production; Менеджеры и тимлиды ML-команд, принимающие решения о выборе модели и инфраструктуры; Архитекторы LLM-решений в корпоративных системах, а также backend-разработчики, работающие с LLM API; инженеры инфраструктуры, оптимизирующие сервинг; QA-специалисты, проектирующие тесты для LLM-систем.

Тезисы

LLM в продакшене - это не только качество ответов, но и управляемая производительность под реальной нагрузкой. В self-hosted сценариях на итог влияет много факторов: от выбранного движка до объёма памяти. В докладе я покажу, как мы в Магните построили воспроизводимый пайплайн нагрузочного тестирования для выбора подходящей LLM и настройки конфигов сервинга - с упором на возможность повторить это на своём железе. Мы разберём, как организовать нагрузочные тесты на Locust для корректного измерения TTFT/ITL/TPS, находить порог стабильности и избежать искажения результатов из-за упрощённых условий тестирования. Отдельно продемонстрирую, какие сигналы в observability помогают объяснять деградации и подтверждать эффект изменений.

5+ лет в Data Science. В Тинькофф (Т‑Банк) автоматизировал аналитические процессы, затем строил и масштабировал ML‑сервисы в Yandex Crowd; сейчас разрабатывает и внедряет Copilot в MAGNIT TECH. Преподаёт в Центральном университете и на ФКН НИУ ВШЭ, автор курса «Внедрение больших языковых моделей в маркетинг и управление продуктом».

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)