Мультимодальный RAG для чертежей и ГОСТов: как подружить NebulaGraph, Qdrant и Nemotron-Mamba в закрытом контуре

Архитектура и масштабируемость

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

GenAI-архитекторы, Backend-разработчики высоконагруженных систем, инженеры данных, внедряющие LLM/RAG в Enterprise, и все, кто сталкивается с ограничениями железа (Single GPU Inference) при огромных объемах знаний.

Тезисы

Как построить систему поиска знаний, которая понимает не только текст регламентов, но и структуру изделия из чертежей, когда у вас всего одна карта H100 и строгие требования к приватности?
Стандартный RAG здесь не работает: векторный поиск не видит связей между «гайкой» и «двигателем», а обычные VLM галлюцинируют на таблицах технических требований.
В докладе я разберу архитектуру «Hybrid Fusion RAG» — гибридную систему поиска для инженерных задач.
Вы узнаете:
Почему мы отказались от Qwen 3 в пользу гибридной архитектуры Mamba+MoE (Nemotron-3-Nano-30B) и как это помогает загружать в контекст целые ГОСТы.
Как скрестить NebulaGraph и Qdrant для «триангуляционного поиска», чтобы повысить точность с 60% до 94%.
Оптимизация инференса: как запустить OCR чертежей, Graph-траверсал и LLM-ризонинг на 80GB VRAM, используя BF16 и TensorRT-LLM.
Лицензионная чистота: сборка SOTA-стека из компонентов, доступных для Enterprise-контура в 2026 году.

Андрей Носов

Raft

NLP Lead.
Архитектор ИИ.
CTO.

Видео

Другие доклады секции

Архитектура и масштабируемость

Запуск технологического R&D: как мыслить нестандартно для поиска решений

Евгений Ситников

СберМобайл

BaobabRT: Как Яндекс Маркет навел порядок и ускорил доставку пользовательских сигналов

Олег Титов

Яндекс Маркет

Fast & Furious Media Processing: как мы приручили стейт машину

Илья Григорьев

Яндекс 360

Архитектурный хаос как новое узкое место. Как три AI-агента в ArInA стали нашим первым антидотом

Ангелина Костина

МТС Web Services

Архитектурный дискуссионный клуб

Наталья Макарова

CDEK

MCP в enterprise: контроль, политики и масштабирование без хаоса

Михаил Давидович

Альфа-банк

Архитектура, которая выдерживает 35 000 магазинов в real-time. И работает...

Алексей Соболеков

Magnit Tech

Алгоритмы без цели: устойчивость и эмерджентное поведение в AI и распределённых системах

Михаил Давидович

Альфа-банк

«Зачем вашему фаерволу турбонаддув?»

Павел Молодан

UserGate

Architecture as Code: от антипаттернов описания к рабочему инструменту

Иван Садовой

Туту

Как мы делали крупнейший инфраструктурный проект в истории компании

Юрий Власов

CDEK

Из кинотеатра в ресторан: как КИОН мигрировал с вендорского решения на 40 000 RPS

Иван Фефилов

MTC Web Services, КИОН

Динамическая адаптация балансирования нагрузки на сетевом уровне к метрикам вычислительных сред

Павел Михайлик

Инфосистемы Джет

Убить нельзя оставить. Что делать с Elastic в большом екоме

Гимранова Карина

Магнит OMNI

Kubernetes для разработчиков глазами разработчика

Александр Базарнов

ПочтаБанк

Секунда решает все

Юлия Лебедева

Сбер

Расширяя возможности Kubernetes: от оркестратора к платформе

Артемий Афанасьев

Flant

Отказоустойчивый антифрод с гибкими настройками под нагрузкой до 1000 tps

Денис Зайчук

Единый ЦУПИС

Обеспечение согласованности данных в распределённых системах: сравнение подходов Сага и Two-phase commit

Борисова Дарья Игоревна

ПСБ

Инфраструктура как экономика: выживание SaaS-стартапа без big-tech бюджета, но с нагрузкой как у банка

Андрей Ивахненко

Антиплагиат

Python в Highload-ипотеке: От монолита к микросервисам на стероидах (и обратно к разумному балансу)

Иван Семин

ООО «Домклик»

Отказоустойчивость как инструмент для оптимизации инфраструктурных расходов

Сергей Лавров

Авиасейлс

80 кластеров и один новый каждую неделю. Как мы спасали Яндекс Трекер от роста.

Дима Куприк

Яндекс

Достигаем консистентности в распределенных системах

Максим Рауба

Ozon

RecSys платформа

Кузнецов Сергей

MWS

Architecture of a Instant Payment System (by Brazil)

Pablo Aguilar

dry-python

Как мы строили промодвижок на Go. От одного промокода, до сотен миллионов персональных предложений

Фоломкин Александр

Magnit TECH

Как мы настроили Elasticsearch на 35 тыс+ RPS и улучшили бизнес-процессы

Владимир Панчук

АО Альфа-Банк

История развития телеметрии в Контуре с 2013 по 2026 с миграцией на OTel

Денисов Александр Александрович

СКБ Контур

Спиливание устаревших возможностей без нарушения обратной совместимости

Лев Плинер

Контур

SELECT * FROM hell: Как aнализ Python кода спас нашу валидацию 100 000 сетевых устройств

Даниил Парамонов

Hadal Project

Эволюция товароцентричности в Яндекс.Еде

Михаил Ковалев

Яндекс

AI Flow вместо хаоса: практическая методология построения мультиагентных систем

Дмитриев Игорь Николаевич

Wildberiies & Russ

Надежная и быстрая архитектура поиска лекарств в Яндекс Еде

Сергей Синягин

Яндекс Еда

Kubernetes: координация операторов для предоставления PaaS

Александр Князев

РСХБ.цифра

Ключ к масштабу: партиции, хеши и маршрутизация

Яговцев Сергей Евгеньевич

kaspersky

Миллиарды транзакций в сутки: Как мы построили высоконагруженный Accounting Engine для экосистемы Сбера

Жегулин Денис Сергеевич

Сбер

Pragmatic Event Driven Architecture

Иван Базалий

ati.su

Waterbase: Эволюция высоконагруженного сервиса управления конфигурациями и A/B-тестированием

Юрий Минченко-Первак

KION, MTS Web Services

Онлайн светофоры в Яндекс Картах

Игорь Ретинский

Яндекс Карты

Адаптивная гео-балансировка на сетевом уровне с учетом метрик вычислительных сред (не DNS)

Павел Михайлик

Инфосистемы Джет

Антикейсы в масштабировании инфраструктуры

Максим Яковлев

Timeweb Cloud

Использование пакета weak в системе кеширования

Артур Рощупкин

Lamoda

HotCache на Tarantool: real-time пайплайн от Kafka до in-memory хранения с управляемым охлаждением данных

Михаил Давидович

Альфа-банк

Счастливая жизнь с вебсокетом

Павел Корозевцев

Яндекс

Умная VS глупая нагрузка. Нюансы порождения первой и уничтожения второй.

Михаил Колосов

Газпромбанк.Тех

Итак, вы решили сделать аудит: практическое руководство по разбору боевой высоконагруженной системы

Павел Лукьянов

Независимый эксперт

Как отселить рекламу на свои легкие индексы и развязать поиску руки

Эмиль Рахимов

2ГИС

Realtime-балансировка low-latency сервисов

Константин Хмелевский

Яндекс

Я слышал, ты любишь оркестраторы. Поэтому мы построили оркестратор для оркестратора - чтобы управлять тысячами кластеров, пока они управляют твоими подами

Артем Гринберг

Timeweb Cloud

Вынос функционала из монолита

Алексей Лосев

Wildberries & Russ

Как сделать правильную реализацию Delayed events

Александр Митин

ИТ-Холдинг Т1

Как мы построили большой ML-кластер на Kubernetes

Юмашев Иван

Ozon tech