Как RAG ускоряет поддержку RUTUBE: от гибридного поиска до мониторинга галлюцинаций

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Сильный производственный кейс от RUTUBE, как построить RAG-систему, которая реально работает. Конкретные метрики, архитектурные решения, сравнение технологий. Главная ценность доклада — опыт работы с русским языком и on-premise. Рекомендуется всем, кто думает о внедрении AI в поддержку.

Целевая аудитория

Инженеры, DevOps, техлиды, ответственные за интеграцию ML/AI в продакшн, архитектуру высоконагруженных систем и автоматизацию бизнес-процессов.

Тезисы

Расскажу, как мы в RUTUBE сократили время ответа поддержки в два раза, автоматизировав 80% запросов. Покажу конкретные цифры: было 40+ тематик поддержки, тысячи запросов в день, постоянно растущая база знаний — стало автоматическое решение, которое работает 24/7 и всегда обладает актуальной информацией. Если вы думаете о внедрении RAG или уже обожглись на первой попытке — этот доклад для вас.

Что разберем:

* Рабочую архитектуру RAG-системы, обрабатывающей тысячи запросов в день.
* Конкретные метрики для оценки качества. Спойлер: accuracy — не главное.
* Почему наивный RAG провалился и как мы пришли к гибридному поиску с помощью BM25 и FRIDA.
* Сравнительные таблицы: Milvus vs альтернативы.
* Реальные метрики качества: как мы снизили долю IDK («я не знаю») с 40% до 15%.
* Антипаттерны: почему 90% RAG-проектов умирают. Спойлер: дело не в LLM.

Слушатели доклада получат готовый чек-лист внедрения RAG-системы, которая уже обрабатывает тысячи запросов в день.

ML-инженер в RUTUBE.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)