Опыт перехода от maas к selfhosted/on premise моделям: проблемы, боли, решения

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

ML-инженеры и инженеры машинного обучения (Middle+ / Senior), MLOps/ML Platform инженеры и архитекторы, технические руководители и тимлиды AI-команд, архитекторы высоконагруженных и облачных систем, продуктовые разработчики и CTO, исследующие интеграцию AI в свои сервисы

Тезисы

В докладе поделимся практическим опытом переезда высоконагруженных AI-сценариев с вендорских моделей как услуги (MaaS) на локальные (on-premise) LLM, STT и эмбеддинги. Расскажем про реальные инженерные проблемы такого перехода: от ограничений контекстного окна и ресурсоемкости его обработки до деградации скорости инференса на фреймворках вроде vLLM и сложностей балансировки разноплановой нагрузки. Развенчаем популярные мифы о хостинге моделей и дадим конкретные инсайты, основанные на эксплуатации ансамбля моделей, обрабатывающего миллионы запросов в месяц.

Разработчик команды AI/ML в Битрикс24. Сергей отвечает на направление LLM-моделей, поиск, анализ, адаптацию и тестирование нейросетей на собственных сценариях Битрикс24. Занимается разработкой бенчмарка для сравнения ML-моделей.

Помогает активно внедрять AI-технологии в работу разных департаментов компании — от бухгалтерии до разработки.

Является постоянным ведущим бесплатного онлайн-практикума AIшница для руководителей и предпринимателей. Регулярно выступает на отраслевых конференциях, участвует в подкастах и делится комментариями со СМИ. Например, CRM CONF 2024 и Mad Brains.

Видео