Почему вам (скорее всего) не нужен локальный LLM-инференс
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Мы строим платформу инференса и обычно пропагандируем идею "локальные LLM в продакшн". Но для средних и малых компаний рекомендация часто будет противоположная: не надо начинать с покупки GPU. В докладе покажу, где именно ломается экономика локального инференса и почему "поставим vLLM на свою карту" не равно "получим дешёвый продакшн-сервис".
Разбор будет через TCO. RTX 5090 можно арендовать за 50-90 тыс. рублей в месяц или купить за 300-500 тыс., но железо — только первая строка затрат. Дальше появляются ДЦ, электричество, охлаждение, сеть, мониторинг, деплой, кусочек или полный DevOps на поддержку и несколько человеко-месяцев на запуск. Даже если модель даёт хорошие tok/s в бенчмарке, карта ночью простаивает, днём упирается в потолок, а среднемесячная загрузка редко похожа на провайдерские 50-70%.
В конце разберём исключения: ИБ или регуляторика; GPU-парк в наследство от прошлого проекта; CAPEX, который проще защитить, чем OPEX; подозрительно постоянная нагрузка/training, под которую железо можно занять почти круглосуточно. В остальных случаях сначала стоит смотреть на API/OpenRouter, отечественные сервисы с оплатой по токенам или аренду GPU на короткий тест.
15 лет в production-инфраструктуре: от Unix-кластеров под телефонию до Kubernetes-платформ для финтеха и телекомов. CEO AdminDivision (DevOps/инфра, 150+ проектов) и Впрод (LLM as a Service платформа).
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)