Как RAG ускоряет поддержку RUTUBE: от гибридного поиска до мониторинга галлюцинаций
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В докладе расскажу, как устроена архитектура RAG-системы RUTUBE, которая уже в 80% случаев даёт операторам службы поддержки готовый ответ и снижает время реакции на 10%. Рассмотрим, как мы совмещаем гибридный поиск (BM25 + семантический поиск FRIDA), локальные LLM (Vikhr-Nemo-12B) и интеграцию с системой поддержки. Разберём основные аспекты разработки и внедрения RAG.
- Технические детали: выбор Milvus как векторной БД для масштабируемого поиска, оптимизация эмбеддингов для русскоязычного контента.
- Интеграция в продукт: автоматическое обновление FAQ через Airflow.
- Мониторинг: метрики качества ответов через Kafka → ClickHouse → Grafana, включая KPI на доля ответов «Я не знаю» и другие решения.
ML-инженер в RUTUBE.