Мультимодальный RAG для чертежей и ГОСТов: как подружить NebulaGraph, Qdrant и Nemotron-Mamba в закрытом контуре

Архитектура и масштабируемость

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

GenAI-архитекторы, Backend-разработчики высоконагруженных систем, инженеры данных, внедряющие LLM/RAG в Enterprise, и все, кто сталкивается с ограничениями железа (Single GPU Inference) при огромных объемах знаний.

Тезисы

Как построить систему поиска знаний, которая понимает не только текст регламентов, но и структуру изделия из чертежей, когда у вас всего одна карта H100 и строгие требования к приватности?
Стандартный RAG здесь не работает: векторный поиск не видит связей между «гайкой» и «двигателем», а обычные VLM галлюцинируют на таблицах технических требований.
В докладе я разберу архитектуру «Hybrid Fusion RAG» — гибридную систему поиска для инженерных задач.
Вы узнаете:
Почему мы отказались от Qwen 3 в пользу гибридной архитектуры Mamba+MoE (Nemotron-3-Nano-30B) и как это помогает загружать в контекст целые ГОСТы.
Как скрестить NebulaGraph и Qdrant для «триангуляционного поиска», чтобы повысить точность с 60% до 94%.
Оптимизация инференса: как запустить OCR чертежей, Graph-траверсал и LLM-ризонинг на 80GB VRAM, используя BF16 и TensorRT-LLM.
Лицензионная чистота: сборка SOTA-стека из компонентов, доступных для Enterprise-контура в 2026 году.

NLP Lead.
Архитектор ИИ.
CTO.

Видео

Другие доклады секции

Архитектура и масштабируемость