RAG в дикой природе: 15 лет хаоса, enterprise-доступы и production-качество

GenAI и большие языковые модели (LLM)

Архитектура данных, потоки данных, версионирование
Проектирование информационных систем
Проектные артефакты, инструментарий
Big Data и Highload в Enterprise
Обработка данных
Базы знаний / wiki
СУЗ / системы управления знаниями
KCS / knowledge-centered service

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Тимлиды, техлиды и инженерные руководители, которые внедряют RAG/LLM-поиск в поддержку или внутренние продукты и хотят: привести историческую базу знаний (15+ лет накопления) к управляемому формату (Q/A-чанки); обеспечить качество, обновляемость и измеримость результатов; встроить ролевую модель доступа и защиту от утечек прямо в retrieval; удержать SLA по скорости при росте нагрузки и числа пользователей.

Тезисы

В крупных компаниях единые базы знаний живут 15+ лет: статьи разного качества, разные авторы и эпохи, часть контента устаревает, а единого процесса актуализации часто нет. При подключении такой базы к чатам поддержки быстро возникают проблемы: шум, устаревшие инструкции, риск утечек и нестабильная выдача после фильтрации по доступам.

В докладе разберём, как мы построили промышленный пайплайн подготовки и поиска по базе знаний для чат-поддержки (мобильное приложение и веб):
- ingestion-пайплайн: разбиение статей на части, выделение поисковой информации и генерация Q/A-чанков (вопрос + краткий ответ-инструкция);
- quality gates: fact-checker + rewriter-петля, критерии отклонения и повторная генерация до прохождения проверки;
- retrieval: параллельный поиск по вопросу и по ответу в payload-чанка и последующий rerank;
- role-aware выдача: в индекс попадают только документы, доступные соответствующей группе пользователей; на уровне retrieval — фильтрация по токену из запроса, в промпте — явная инструкция против утечки контента за пределы прав доступа;
- delta/CDC: инкрементальная переиндексация при изменениях документов, удаление/обновление чанков и повторный прогон пайплайна.

Поделимся метриками: качество 93%, покрытие кейсов 72%, скорость поиска 0.1 мс, end-to-end с учётом генерации и контент-контроля — 5–7 секунд.

В IT 5+ лет: начинал бизнес-аналитиком в B2B-стартапе (платформа заказчик-поставщик), где развивал продукт и внутреннюю CRM для сотрудников разных подразделений — уведомления/рассылки, отчётность для продаж, чаты для пользователей (WebSocket), AI-модерацию рубрик заказов (точность ~87%), а также рекомендательные системы для поставщиков и клиентов; соавтор 5 патентов. Затем — системная аналитика в Сбере: отчётный контур на данных из 20+ систем и миграция при распаде SberCRM на 26 АС (лидирование рабочей группы, координация 13–15 команд). В госсекторе (СФР) занимался обменом данными СНИЛС ↔ ЕРН и интеграциями с ЗАГС, а также процессами персучёта и расчётом показателей для отображения в Госуслугах. Сейчас в Альфа-Банке в направлении Alfa Mobile работал над продуктами рассрочек (в т.ч. «4 корзины», рассрочка на операцию, cash-рассрочка при переводе), переходом на Sign Online и требованиями 353-ФЗ (период охлаждения), после чего перешёл в AdvancedRAG: проектирую и развиваю архитектуру RAG v2 (ingestion → Qdrant, кластер/шардирование, снапшоты и восстановление), ускоряю ответы и повышаю качество за счёт предобработки данных и разделения ingestion и retrieval. Вне работы — спортзал, прогулки с детьми и интерес к AI.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)