ARAG в enterprise: как построить корпоративный RAG-продукт вокруг Qdrant — от шардирования до мониторинга и нагрузочных тестов

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Тимлиды, техлиды, инженеры платформ/ML/DevOps/SRE, которые внедряют RAG в enterprise-среде и хотят сделать это как продукт и платформу: стабильность, масштабирование, профили под заказчиков, измеримое качество и производительность.

Тезисы

В крупных компаниях RAG быстро превращается в «зоопарк решений»: разные команды собирают собственные пайплайны, по-разному индексируют данные, по-разному тюнят векторные базы и измеряют качество. Итог — нестабильные ответы, сложно прогнозировать нагрузку, дорого сопровождать.

Мы строим ARAG как корпоративный enterprise RAG-продукт: единый пайплайн поиска и генерации с управляемыми настройками, наблюдаемостью и воспроизводимой производительностью. В докладе разберём практику построения RAG вокруг Qdrant-кластера:
• Архитектура enterprise RAG-продукта: как отделяем ingestion, retrieval, rerank и generation, чтобы масштабировать и сопровождать как платформу.
• Qdrant-кластер в проде: как организуем кластер, планируем ёмкость, обеспечиваем отказоустойчивость и обновления без простоя.
• Шардирование коллекций Qdrant: как выбираем ключи шардирования и стратегию распределения, чтобы держать баланс нагрузки и предсказуемую латентность.
• Настройки коллекций: какие параметры (индексы, HNSW, payload-индексация, квантизация/хранение) дают максимум эффекта под разные сценарии.
• Мониторинг и поддержание работоспособности Qdrant: метрики, дашборды, алерты, управление инцидентами.
• Поисковые профили под заказчиков: как «упаковываем» настройки retrieval/rerank в профили и валидируем их на данных конкретной команды/домена.
• Нагрузочное тестирование RAG-пайплайнов: как тестируем не только Qdrant, но и весь RAG-контур (ретривер → реранкер → LLM), чтобы релизы были безопасными.

Сизов Станислав

АО "Альфа Банк"

Инженер автоматизации атомной отрасли, который перешел из построения систем цифровых двойников в финтех IT и почти сразу попал в волну ИИ. Начинал с внедрения ML моделей, потом перешел в разработку RAG систем начав с ИИ ассистентов, перешел на self RAG сервисы и теперь строю RAG платформу в Альфа банке.

Увлекаюсь сноубордом, играми и новыми технологиями

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)