Кто это? Что это? Учим VLM узнавать лица, картины и достопримечательности.

Data Engineering

ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Одним из ключевых вызовов VLM является точное распознавание сущностей на изображениях, особенно известных людей и объектов архитектуры . В докладе рассмотрены стратегии обучения, результаты экспериментов и предложен подход, повышающий качество идентификации при минимизации затратах на обучение.

Целевая аудитория

Все, кто увлекается GenAI, в частности VLM и мультимодальными моделями.

Тезисы

Мультимодальные модели видят мир, но часто не узнают его. Они могут описать текстуру камня на фасаде собора, но не сказать, что это Нотр-Дам.
Мы взялись за эту проблему "узнавания" и провели серию экспериментов, чтобы научить VLM запоминать ключевые сущности: от шедевров живописи до лиц знаменитостей.
В докладе вы узнаете, какие подходы провалились, а какой рецепт обучения позволил нам добиться значительного прироста в качестве.

Завен Мартиросян

Сбер / МИСИС

5 лет в ML.
Начинал с обучения чат-бот системы для банка ВТБ и цифрового помощника "VK Assistant".
Сейчас - Senior ML-engineer в SbeAI. Занимается обучением VLM.
Выпускник МАИ.
Аспирант МИСИС.

Видео

Другие доклады секции

Data Engineering