Экономика LLM inference на потребительских GPU: сколько стоит токен и почему это важно знать
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Мы 15 лет строили инфраструктуру для финтеха и телекомов. Полтора года назад к нам пришли клиенты с задачей «запустите LLM в проде». Мы взялись, собрали платформу на open-source стеке и запустили в production у облачного провайдера Nubes на потребительских GPU (RTX 5090).
По дороге выяснилось, что самый сложный вопрос — не «как запустить модель», а «сколько это стоит и как считать». Когда мы впервые посчитали себестоимость токена, экономика не сходилась. Пришлось разбираться, от чего она зависит и как на неё влиять.
В докладе — экономика inference с конкретными числами:
— Формула себестоимости токена: P = 1M × R / (Q × 3600 × U). Разберём каждую букву, покажу как подставить своё железо и получить свою цену
— Таблица по 7 моделям (от 4B до 120B) на RTX 5090: throughput, себестоимость при разной утилизации. Разброс себестоимости между моделями — в 10 раз, и это не очевидно до тестов
— Что влияет на экономику: квантизация (одна настройка — минус 60% себестоимости), утилизация GPU, выбор модели под задачу. Почему маленькая модель на одной карте может быть выгоднее большой на четырёх
— Чему нас научил рынок: мы общались с командами, у которых 100-500 GPU. Оказалось, что автоскейлинг inference не решён даже у них, а типичная рабочая нагрузка — 1-2 карты, не десятки
Слушатели унесут формулу расчёта себестоимости, таблицу бенчмарков и понимание, как устроена экономика LLM inference — чтобы не считать на глазок, а знать цену своего токена.
15 лет в production-инфраструктуре: от Unix-кластеров под телефонию до Kubernetes-платформ для финтеха и телекомов. CEO AdminDivision (DevOps/инфра, 150+ проектов) и Впрод (LLM as a Service платформа).
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)