Как RAG ускоряет поддержку RUTUBE: от гибридного поиска до мониторинга галлюцинаций

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Целевая аудитория

инженеры, DevOps, техлиды, ответственные за интеграцию ML/AI в продакшн, архитектуру высоконагруженных систем и автоматизацию бизнес-процессов.

Тезисы

В докладе расскажу, как устроена архитектура RAG-системы RUTUBE, которая уже в 80% случаев даёт операторам службы поддержки готовый ответ и снижает время реакции на 10%. Рассмотрим, как мы совмещаем гибридный поиск (BM25 + семантический поиск FRIDA), локальные LLM (Vikhr-Nemo-12B) и интеграцию с системой поддержки. Разберём основные аспекты разработки и внедрения RAG.
- Технические детали: выбор Milvus как векторной БД для масштабируемого поиска, оптимизация эмбеддингов для русскоязычного контента.
- Интеграция в продукт: автоматическое обновление FAQ через Airflow.
- Мониторинг: метрики качества ответов через Kafka → ClickHouse → Grafana, включая KPI на доля ответов «Я не знаю» и другие решения.

ML-инженер в RUTUBE.

Видео