Кто это? Что это? Учим VLM узнавать лица, картины и достопримечательности

Data Engineering

6 ноября, 15:50, Зал «НеДетская Капсула»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Одним из ключевых вызовов VLM является точное распознавание сущностей на изображениях, особенно известных людей и объектов архитектуры. В докладе рассмотрены стратегии обучения, результаты экспериментов и предложен подход, повышающий качество идентификации при минимизации затрат на обучение.

Целевая аудитория

Все, кто увлекается GenAI, в частности VLM и мультимодальными моделями.

Тезисы

Мультимодальные модели видят мир, но часто не узнают его. Они могут описать текстуру камня на фасаде собора, но не сказать, что это Нотр-Дам.

Мы взялись за эту проблему «узнавания» и провели серию экспериментов, чтобы научить VLM запоминать ключевые сущности: от шедевров живописи до лиц знаменитостей.

В докладе вы узнаете, какие подходы провалились, а какой рецепт обучения позволил нам добиться значительного прироста в качестве.

Завен Мартиросян

Сбер/МИСИС

5 лет в ML.

Начинал с обучения чат-бот системы для банка ВТБ и цифрового помощника VK Assistant.
Сейчас — Senior ML-engineer в SberAI. Занимается обучением VLM.

Выпускник МАИ.
Аспирант МИСИС.