Генеративные диффузионные модели. Разработка, обучение и релиз модели Kandinsky 2.1 в подробностях

Нейронные сети, искусственный интеллект

Генеративные нейронные сети

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Андрей максимально подробно и просто расскажет о нашумевших технологиях — диффузионных моделях, которые могут работать в двух модальностях — текст и изображение. И расскажет о пути, который позволил создать собственную модель, генерирующую картинки по описанию.

Целевая аудитория

Data Science-инженеры и исследователи, занимающиеся обучением генеративных моделей, специалисты в области компьютерного зрения и NLP, специалисты в области эффективного инференса моделей глубоких нейронных сетей, научные сотрудники вузов и исследовательских лабораторий, занимающихся компьютерным зрением и NLP.

Тезисы

В докладе сначала будет рассказано про диффузионный подход для задачи генерации изображений по тексту: что такое диффузионный процесс, какие бывают диффузии и как это всё связано с генерацией изображений. После этого детально рассмотрим архитектуру модели Kandinsky 2.1, а также возможные режимы её использования: генерация, совмещение изображений, изменение изображений по тексту, генерация похожих на заданное изображений и inpainting/outpainting. Далее приводятся результаты сравнительных экспериментов с другими моделями как на примере самих генераций, так и на уровне метрики FID. После этого расскажу про официальный запуск проекта, достигнутые показатели по уникальным пользователям и числу запросов, кратко опишу структуру бэкенда для такой нагрузки по инференсу модели и приведу статистические данные за первые недели запуска с точки зрения highload-нагрузки.

Занимается исследованиями в области цифровой обработки изображений с 2010 года, защитил диссертацию в 2013 году (к.т.н.) по теме обнаружения искусственных искажений на данных дистанционного зондирования Земли. Имеет более 70 публикаций в Scopus и Web of Science, индекс Хирша — 12. Руководил исследовательскими коллективами в рамках ряда крупных грантов РФФИ по теме пассивной защиты мультимедийных данных, был лауреатом премии Президента РФ для молодых учёных в 2015-2017 и 2018-2020 гг.
В настоящее время руководит лабораторией мультимодальных исследований FusionBrain в AIRI, преподаёт в Самарском университете, выступает с лекциями и пишет о событиях в AI и ML в своём телеграм-канале @complete_ai.

AIRI

AIRI — Artificial Intelligence Research Institute.

Видео