LLM в продакшене - это не только качество ответов, но и управляемая производительность под реальной нагрузкой. В self-hosted сценариях на итог влияет много факторов: от выбранного движка до объёма памяти. В докладе я покажу, как мы в Магните построили воспроизводимый пайплайн нагрузочного тестирования для выбора подходящей LLM и настройки конфигов сервинга - с упором на возможность повторить это на своём железе. Мы разберём, как организовать нагрузочные тесты на Locust для корректного измерения TTFT/ITL/TPS, находить порог стабильности и избежать искажения результатов из-за упрощённых условий тестирования. Отдельно продемонстрирую, какие сигналы в observability помогают объяснять деградации и подтверждать эффект изменений.