“Давайте просто развернём свою LLM на 1Т параметров”: как выглядит self-hosted AI после первого миллиона запросов
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Что происходит после фразы “давайте просто развернём open-source модель у себя”? На опыте Битрикс24 разберу грабли self-hosted AI: контекст, vLLM, GPU-пулы, evals, качество, стоимость и миллионы запросов в месяц. На выходе - чек-лист решений и метрик, который поможет оценить готовность к своим моделям и не сжечь бюджет на железе.
AI Platform Lead в Битрикс24. Отвечает за развитие и эксплуатацию production AI-платформы: self-hosted модели, inference-инфраструктуру, evals, guardrails, observability и управление затратами.
Пишет и выступает о том, как превращать AI из набора демо и API-ключей в надёжную продуктовую платформу с предсказуемым качеством, контролируемой задержкой, прозрачной стоимостью и минимальными эксплуатационными рисками.
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)