Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen и Llama

Архитектура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В докладе обсуждаются архитектурные решения для построения RAG-системах, включая 10 стратегий оптимизации чанкинга, выбор векторной БД, оптимизацию пайплайнов для работы с LLM, кэширование чанков и эмбеддингов для снижения задержек и методы повышения точности при работе с большими данными.

Целевая аудитория

Архитекторы, проектирующие RAG-системы для обработки миллионов запросов. Инженеры ML/DL, оптимизирующие пайплайны чанкинга и поиска. Техлиды, внедряющие LLM (Qwen, Llama) в production-среды.

Тезисы

Доклад фокусируется на архитектурных решениях для RAG-систем, где чанкинг становится узким местом при масштабировании. Рассматриваются 10 стратегий оптимизации, их комбинации и интеграция с Weaviate, Qwen и Llama.

Решаемые проблемы:

High latency при индексировании больших данных (PDF, код, таблицы).
Потеря контекста из-за неадаптивного разделения текста.
Сложности балансировки между скоростью (throughput) и точностью (recall).

Ключевые стратегии чанкинга:
Semantic Chunking (на основе Qwen-7B): разделение по смысловым границам.
Recursive Split: иерархическая декомпозиция текста.
Fixed-Size with Overlap: фиксированные окна с перекрытием для сохранения контекста.
Token-Limited Dynamic Chunking: адаптация под лимиты токенов LLM (например, Llama-3).
Rule-Based Chunking: правила для специфичных данных (например, разделение по секциям договоров).
Content-Aware Chunking: анализ типа контента (текст/таблица/код) через Unstructured.io.
Graph-Based Chunking: связь чанков через графы (предотвращение разрывов контекста).
Sliding Window with Threshold: динамическое определение границ на основе эмбеддингов.
Hybrid Approach: комбинация NLTK-статистик и нейросетевых моделей.
Cluster-Driven Chunking: предварительная кластеризация данных для группировки связанных чанков.

Архитектурные инновации:
Интеграция Weaviate как векторной БД с поддержкой мультимодальности и гибридного поиска.
Оптимизация пайплайнов через LangChain и LlamaIndex для работы с Qwen и Llama.
Кэширование чанков и эмбеддингов в Redis для снижения задержек.

Результаты:
Ускорение индексирования в 2 раза (с 10 сек/док до 5 сек/док) при обработке 50K PDF-документов.

Повышение recall на 12% в тестах с медицинскими отчетами.

Снижение стоимости инференса Llama/Qwen за счет уменьшения избыточных чанков.

NLP Lead
Архитектор ИИ

Видео

Подготовительное задание
-

Другие доклады секции

Архитектура