Кто это? Что это? Учим VLM узнавать лица, картины и достопримечательности

Data Engineering

6 ноября, 15:50, Зал «НеДетская Капсула»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Одним из ключевых вызовов VLM является точное распознавание сущностей на изображениях, особенно известных людей и объектов архитектуры. В докладе рассмотрены стратегии обучения, результаты экспериментов и предложен подход, повышающий качество идентификации при минимизации затрат на обучение.

Целевая аудитория

Все, кто увлекается GenAI, в частности VLM и мультимодальными моделями.

Тезисы

Скачать презентацию Все презентации конференции

Мультимодальные модели видят мир, но часто не узнают его. Они могут описать текстуру камня на фасаде собора, но не сказать, что это Нотр-Дам.

Мы взялись за эту проблему «узнавания» и провели серию экспериментов, чтобы научить VLM запоминать ключевые сущности: от шедевров живописи до лиц знаменитостей.

В докладе вы узнаете, какие подходы провалились, а какой рецепт обучения позволил нам добиться значительного прироста в качестве.

Завен Мартиросян

Сбер/МИСИС

5 лет в ML.

Начинал с обучения чат-бот системы для банка ВТБ и цифрового помощника VK Assistant.
Сейчас — Senior ML-engineer в SberAI. Занимается обучением VLM.

Выпускник МАИ.
Аспирант МИСИС.