Почему вам (скорее всего) не нужен локальный LLM-инференс

GenAI и большие языковые модели (LLM)

Оптимизация производительности

Логирование и мониторинг

Работа с облачными сервисами

Эффективное использование облаков

DevOps / Кубер

Инфраструктура

23 июня, 10:00, «Зал Башня»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Разработчики малых и средних технологических компаний, которые строят продукт на базе AI или внедряют AI для внутренних нужд компании.

Тезисы

Мы строим платформу инференса и обычно пропагандируем идею "локальные LLM в продакшн". Но для средних и малых компаний рекомендация часто будет противоположная: не надо начинать с покупки GPU. В докладе покажу, где именно ломается экономика локального инференса и почему "поставим vLLM на свою карту" не равно "получим дешёвый продакшн-сервис".

Разбор будет через TCO. RTX 5090 можно арендовать за 50-90 тыс. рублей в месяц или купить за 300-500 тыс., но железо — только первая строка затрат. Дальше появляются ДЦ, электричество, охлаждение, сеть, мониторинг, деплой, кусочек или полный DevOps на поддержку и несколько человеко-месяцев на запуск. Даже если модель даёт хорошие tok/s в бенчмарке, карта ночью простаивает, днём упирается в потолок, а среднемесячная загрузка редко похожа на провайдерские 50-70%.

В конце разберём исключения: ИБ или регуляторика; GPU-парк в наследство от прошлого проекта; CAPEX, который проще защитить, чем OPEX; подозрительно постоянная нагрузка/training, под которую железо можно занять почти круглосуточно. В остальных случаях сначала стоит смотреть на API/OpenRouter, отечественные сервисы с оплатой по токенам или аренду GPU на короткий тест.

Егор Андреев

Admindivision / Впрод

15 лет в production-инфраструктуре: от Unix-кластеров под телефонию до Kubernetes-платформ для финтеха и телекомов. CEO AdminDivision (DevOps/инфра, 150+ проектов) и Впрод (LLM as a Service платформа).