RAG в дикой природе: 15 лет хаоса, enterprise-доступы и production-качество
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
В крупных компаниях единые базы знаний живут 15+ лет: статьи разного качества, разные авторы и эпохи, часть контента устаревает, а единого процесса актуализации часто нет. При подключении такой базы к чатам поддержки быстро возникают проблемы: шум, устаревшие инструкции, риск утечек и нестабильная выдача после фильтрации по доступам.
В докладе разберём, как мы построили промышленный пайплайн подготовки и поиска по базе знаний для чат-поддержки (мобильное приложение и веб):
- ingestion-пайплайн: разбиение статей на части, выделение поисковой информации и генерация Q/A-чанков (вопрос + краткий ответ-инструкция);
- quality gates: fact-checker + rewriter-петля, критерии отклонения и повторная генерация до прохождения проверки;
- retrieval: параллельный поиск по вопросу и по ответу в payload-чанка и последующий rerank;
- role-aware выдача: в индекс попадают только документы, доступные соответствующей группе пользователей; на уровне retrieval — фильтрация по токену из запроса, в промпте — явная инструкция против утечки контента за пределы прав доступа;
- delta/CDC: инкрементальная переиндексация при изменениях документов, удаление/обновление чанков и повторный прогон пайплайна.
Поделимся метриками: качество 93%, покрытие кейсов 72%, скорость поиска 0.1 мс, end-to-end с учётом генерации и контент-контроля — 5–7 секунд.
В IT 5+ лет: начинал бизнес-аналитиком в B2B-стартапе (платформа заказчик-поставщик), где развивал продукт и внутреннюю CRM для сотрудников разных подразделений — уведомления/рассылки, отчётность для продаж, чаты для пользователей (WebSocket), AI-модерацию рубрик заказов (точность ~87%), а также рекомендательные системы для поставщиков и клиентов; соавтор 5 патентов. Затем — системная аналитика в Сбере: отчётный контур на данных из 20+ систем и миграция при распаде SberCRM на 26 АС (лидирование рабочей группы, координация 13–15 команд). В госсекторе (СФР) занимался обменом данными СНИЛС ↔ ЕРН и интеграциями с ЗАГС, а также процессами персучёта и расчётом показателей для отображения в Госуслугах. Сейчас в Альфа-Банке в направлении Alfa Mobile работал над продуктами рассрочек (в т.ч. «4 корзины», рассрочка на операцию, cash-рассрочка при переводе), переходом на Sign Online и требованиями 353-ФЗ (период охлаждения), после чего перешёл в AdvancedRAG: проектирую и развиваю архитектуру RAG v2 (ingestion → Qdrant, кластер/шардирование, снапшоты и восстановление), ускоряю ответы и повышаю качество за счёт предобработки данных и разделения ingestion и retrieval. Вне работы — спортзал, прогулки с детьми и интерес к AI.
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)