Опыт перехода от maas к selfhosted/on premise моделям: проблемы, боли, решения

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

ML-инженеры и инженеры машинного обучения (Middle+ / Senior), MLOps/ML Platform инженеры и архитекторы, технические руководители и тимлиды AI-команд, архитекторы высоконагруженных и облачных систем, продуктовые разработчики и CTO, исследующие интеграцию AI в свои сервисы

Тезисы

В докладе поделимся практическим опытом переезда высоконагруженных AI-сценариев с вендорских моделей как услуги (MaaS) на локальные (on-premise) LLM, STT и эмбеддинги. Расскажем про реальные инженерные проблемы такого перехода: от ограничений контекстного окна и ресурсоемкости его обработки до деградации скорости инференса на фреймворках вроде vLLM и сложностей балансировки разноплановой нагрузки. Развенчаем популярные мифы о хостинге моделей и дадим конкретные инсайты, основанные на эксплуатации ансамбля моделей, обрабатывающего миллионы запросов в месяц.

Сергей Нотевский

Битрикс24

Разработчик команды AI/ML в Битрикс24. Сергей отвечает на направление LLM-моделей, поиск, анализ, адаптацию и тестирование нейросетей на собственных сценариях Битрикс24. Занимается разработкой бенчмарка для сравнения ML-моделей.

Помогает активно внедрять AI-технологии в работу разных департаментов компании — от бухгалтерии до разработки.

Является постоянным ведущим бесплатного онлайн-практикума AIшница для руководителей и предпринимателей. Регулярно выступает на отраслевых конференциях, участвует в подкастах и делится комментариями со СМИ. Например, CRM CONF 2024 и Mad Brains.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)

ML-анализ видео в Crowd (или как решать задачу трекинга без явного таргета?)

Николай Курбатов

Yandex

LLM-агенты — "Серебряная пуля" или просто один из инструментов для клиентского обслуживания?

Олеся Пахомова

Т-Банк

LLM в коде: где обычные инженерные решения превращаются в юридические и этические риски

Степан Соловьёв

ООО «АГЛ» (AG-LEGAL)

Evals-Driven: как управлять разработкой AI-агентов и LLM-based приложений

Дмитрий Антипов

Сбер/АБТ

Агентизация в страховой компании

Шведов Виктор

Ингосстрах

Синтетические задачи в стиле Codeforces для претрейна GigaChat

Данил Сахаров

Сбер

Как я превратила AI в конвейер по генерации тестовой документации

Татьяна Рашидова

KODE

Ненормальные промты

Олег Чирухин

GitVerse

LLMOps в Альфа-Банке: вызовы и практические решения

Виктория Белоусова

Альфа-Банк

Context is a must: как мы системно управляем контекстом

Андрей Неведин

Райффайзенбанк

Встроенные ценности: культурный код национальных LLM

Насыбуллин Альберт

MTC Web Services

Как нанести пользу в разработке при помощи ИИ и измерить ее: метрики, процессы и RFC для промптов

Никита Улько

VKTech

Разработка системы описания данных с ИИ, математикой, бизнес анализом и людьми.

Александр Ошурков

МТС

Защита данных при работе со сторонними LLM: практический опыт создания сервиса фильтрации и маскирования

Михаил Бондаренко

ООО МВС

ARAG в enterprise: как построить корпоративный RAG-продукт вокруг Qdrant — от шардирования до мониторинга и нагрузочных тестов

Сизов Станислав

АО "Альфа Банк"

RAG в дикой природе: 15 лет хаоса, enterprise-доступы и production-качество

Степанищев Владислав Викторович

АО "Альфа-Банк"

LLM Performance Playbook: как выбрать модель и конфигурацию сервинга на основе воспроизводимых тестов

Антон Удалов

Magnit Tech

Эффективный online RL для больших MoE LLM: асинхронный пайплайн, стабильность и ускорения

Никита Ермолаев

SberDevices

Model Merging. Как объединить знания нескольких LLM в одну.

Даниил Смирнов

Сбер

Первый голосовой агент в российском онлайн-ритейле

Руслан Галиуллин

Яндекс

Большие языковые модели

Рыскулов Сергей Николаевич

Т-Банк

Автоматизация 3.0. Gen AI как незаменимый помощник

Евгений Затуливетров

МТС Web Services

Внедрения LLM для технической документации

Семен Цебро

Lenta Tech (Группа Лента)

Практика применения LLM в задачах безопасности приложений

Дмитрий Марюшкин

Ozon Fintech

Как построить text2sql с нуля и собрать (почти) все шишки

Никита Круглов

Альфа-Банк

От слов к данным: автоматизация аналитики с Text2SQL-системой в X5

Михаил Куляскин

X5 Tech

Построение AI-агента: Говори с данными на языке бизнеса

Барышев Сергей

ON Медиа (KION/MWS/МТС)

Безопасность AI-агентов: векторы угроз и механизмы защиты

Виктор Рябинин

Positive Technologies

vLLM под капотом: техники реального ускорения

Кирилл Нетреба

Авито

Ускоряем производство генеративными инструментами

Сергей Пономарев

Purrweb

RAG-система для техподдержки в продакшене: от runbooks до автоматической оценки качества

Ивченков Дмитрий Владимирович

Т-банк

Как LLM-мультиагенты меняют науку (и не только)

Николай Никитин

ИТМО