Мультимодальный RAG для чертежей и ГОСТов: как подружить NebulaGraph, Qdrant и Nemotron-Mamba в закрытом контуре

Архитектура и масштабируемость

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

GenAI-архитекторы, Backend-разработчики высоконагруженных систем, инженеры данных, внедряющие LLM/RAG в Enterprise, и все, кто сталкивается с ограничениями железа (Single GPU Inference) при огромных объемах знаний.

Тезисы

Как построить систему поиска знаний, которая понимает не только текст регламентов, но и структуру изделия из чертежей, когда у вас всего одна карта H100 и строгие требования к приватности? Стандартный RAG здесь не работает: векторный поиск не видит связей между «гайкой» и «двигателем», а обычные VLM галлюцинируют на таблицах технических требований. В докладе я разберу архитектуру «Hybrid Fusion RAG» — гибридную систему поиска для инженерных задач. Вы узнаете: Почему мы отказались от Qwen 3 в пользу гибридной архитектуры Mamba+MoE (Nemotron-3-Nano-30B) и как это помогает загружать в контекст целые ГОСТы. Как скрестить NebulaGraph и Qdrant для «триангуляционного поиска», чтобы повысить точность с 60% до 94%. Оптимизация инференса: как запустить OCR чертежей, Graph-траверсал и LLM-ризонинг на 80GB VRAM, используя BF16 и TensorRT-LLM. Лицензионная чистота: сборка SOTA-стека из компонентов, доступных для Enterprise-контура в 2026 году.

NLP Lead.
Архитектор ИИ.
CTO.

Видео

Другие доклады секции

Архитектура и масштабируемость