Экономика LLM inference на потребительских GPU: сколько стоит токен и почему это важно знать

GenAI и большие языковые модели (LLM)

Оптимизация производительности
Логирование и мониторинг
Работа с облачными сервисами
Эффективное использование облаков
DevOps / Кубер
Инфраструктура

Доклад принят в программу конференции

Целевая аудитория

DevOps/SRE и backend-разработчики, которые запускают или собираются запускать LLM в production. ML-инженеры, занимающиеся inference. Техлиды и CTO, выбирающие инфраструктуру под AI.

Тезисы

Мы 15 лет строили инфраструктуру для финтеха и телекомов. Полтора года назад к нам пришли клиенты с задачей «запустите LLM в проде». Мы взялись, собрали платформу на open-source стеке и запустили в production у облачного провайдера Nubes на потребительских GPU (RTX 5090).

По дороге выяснилось, что самый сложный вопрос — не «как запустить модель», а «сколько это стоит и как считать». Когда мы впервые посчитали себестоимость токена, экономика не сходилась. Пришлось разбираться, от чего она зависит и как на неё влиять.

В докладе — экономика inference с конкретными числами:

— Формула себестоимости токена: P = 1M × R / (Q × 3600 × U). Разберём каждую букву, покажу как подставить своё железо и получить свою цену

— Таблица по 7 моделям (от 4B до 120B) на RTX 5090: throughput, себестоимость при разной утилизации. Разброс себестоимости между моделями — в 10 раз, и это не очевидно до тестов

— Что влияет на экономику: квантизация (одна настройка — минус 60% себестоимости), утилизация GPU, выбор модели под задачу. Почему маленькая модель на одной карте может быть выгоднее большой на четырёх

— Чему нас научил рынок: мы общались с командами, у которых 100-500 GPU. Оказалось, что автоскейлинг inference не решён даже у них, а типичная рабочая нагрузка — 1-2 карты, не десятки

Слушатели унесут формулу расчёта себестоимости, таблицу бенчмарков и понимание, как устроена экономика LLM inference — чтобы не считать на глазок, а знать цену своего токена.

Егор Андреев

Admindivision / Впрод

15 лет в production-инфраструктуре: от Unix-кластеров под телефонию до Kubernetes-платформ для финтеха и телекомов. CEO AdminDivision (DevOps/инфра, 150+ проектов) и Впрод (LLM as a Service платформа).

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)