“Давайте просто развернём свою LLM на 1Т параметров”: как выглядит self-hosted AI после первого миллиона запросов

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Целевая аудитория

ML-инженеры и инженеры машинного обучения (Middle+ / Senior), MLOps/ML Platform инженеры и архитекторы, технические руководители и тимлиды AI-команд, архитекторы высоконагруженных и облачных систем, продуктовые разработчики и CTO, исследующие интеграцию AI в свои сервисы

Тезисы

Что происходит после фразы “давайте просто развернём open-source модель у себя”? На опыте Битрикс24 разберу грабли self-hosted AI: контекст, vLLM, GPU-пулы, evals, качество, стоимость и миллионы запросов в месяц. На выходе - чек-лист решений и метрик, который поможет оценить готовность к своим моделям и не сжечь бюджет на железе.

AI Platform Lead в Битрикс24. Отвечает за развитие и эксплуатацию production AI-платформы: self-hosted модели, inference-инфраструктуру, evals, guardrails, observability и управление затратами.

Пишет и выступает о том, как превращать AI из набора демо и API-ключей в надёжную продуктовую платформу с предсказуемым качеством, контролируемой задержкой, прозрачной стоимостью и минимальными эксплуатационными рисками.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)

Harness на стероидах, как заставить ИИ работать
Леша Гладков

Независимый эксперт. Ex-Head of Mobile в Леруа Мерлен.