Больше не значит медленнее: практики инференса больших LLM

GenAI и большие языковые модели (LLM)

7 ноября, 14:40, Зал «Капсула 2»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Забудьте о FLOPS: новая битва за производительность AI разворачивается на уровне межсерверных interconnect и архитектуры памяти. На живом примере спикер докажет, что правильно спроектированная сеть в кластере для MoE важнее, чем простое наращивание вычислительных мощностей.

Целевая аудитория

Senior MLOps, Inference-иженеры. Те, кто делают инференс LLM.

Тезисы

Скачать презентацию Все презентации конференции

Мы расскажем о том, как делать инференс гигантских Mixture-of-Experts-моделей. Разберем на практике, как построить и масштабировать гетерогенный кластер, в котором правильная архитектура сети и памяти становится важнее «голых» петафлопс.

Антон Чигин

Сбер

14 лет в IT. Успел поработать над проектами в Intel, Яндексе и Сбере.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)

Как перевести разметку на генеративные модели, не уронив качество и стабильность

Дарья Шатько

Яндекс Крауд

Агентный подход к матчингу товаров с помощью LLM

Виталий Кулиев

Wildberries & Russ

Строительные блоки LLM‑агентов: планировщик, память, RAG и рабочие цепочки

Алексей Барган

Компания «Тантор Лабс»

AI-ответы в Яндекс Поиске: как увеличить счастье пользователей и сэкономить GPU

Алексей Яндутов

Яндекс

Темная сторона открытых нейросетей

Кирилл Одиноков

СберТех

vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

Кирилл Нетреба

Авито

Как устроены данные GigaChat: петабайты текстов и триллионы токенов

Валерий Березовский

Сбер

💻 Воркшоп: «Разработка ИИ-агентов с использованием MCP-серверов»

Антон Морев

Wormsoft

Как RAG ускоряет поддержку RUTUBE: от гибридного поиска до мониторинга галлюцинаций

Виктор Леньшин

RUTUBE

Заселение без фронт-деска, или Как построить бесконтактный сервис в сети отелей на основе RAG

Кирилл Кухарев

Raft

Разработка AI-агентов: с нуля до мультиагентной системы антифрода

Дмитрий Антипов

Сбер/АБТ

Как сохранить высокую надежность при GenAI-трансформации

Вячеслав Кудряшов

Сбер

Создание ML-планировщика движения для робота доставщика

Дмитрий Быков

Автономный транспорт

Безопасное взаимодействие с GenAI. Проблемы и кейсы с применением шлюза безопасности AI Platform V SOWA

Всеслав Соленик

СберТех

AI-агенты для рынка недвижимости: от чат-бота до мультиагентной системы

Алина Баймашева

Домклик