Как RAG ускоряет поддержку RUTUBE: от гибридного поиска до мониторинга галлюцинаций

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Сильный производственный кейс от RUTUBE: как построить RAG-систему, которая реально работает. Конкретные метрики, архитектурные решения, сравнение технологий. Особенно ценно: опыт работы с русским языком и on-premise. Рекомендуется всем, кто думает о внедрении AI в поддержку.

Целевая аудитория

инженеры, DevOps, техлиды, ответственные за интеграцию ML/AI в продакшн, архитектуру высоконагруженных систем и автоматизацию бизнес-процессов.

Тезисы

Расскажу, как мы в RUTUBE сократили время ответа поддержки в 2 раза, автоматизировав 80% запросов. Покажу конкретные цифры: было 40+ тематик поддержки, тысячи запросов в день, постоянно растущая база знаний — стало автоматическое решение, которое работает 24/7 и всегда обладает актуальной информацией. Если вы думаете о внедрении RAG или уже обожглись на первой попытке — этот доклад для вас.

Что разберём:
- Рабочую архитектуру RAG-системы, обрабатывающей тысячи запросов в день
- Конкретные метрики для оценки качества (спойлер: accuracy — не главное)
- Почему наивный RAG провалился и как мы пришли к гибридному поиску (BM25 + FRIDA)
- Сравнительные таблицы: Milvus vs альтернативы
- Реальные метрики качества: как мы снизили долю "Я не знаю" с 40% до 15%
- Антипаттерны: почему 90% RAG-проектов умирают (спойлер: дело не в LLM)

Получите: готовый чек-лист внедрения RAG-системы, которая уже обрабатывает тысячи запросов в день.

ML-инженер в RUTUBE.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)