Обход защиты LLM при помощи состязательных суффиксов и AutoDAN

Нейронные сети и искусственный интеллект (data science)

23 июня, 15:50, «Зал 06 / Оранжевый шатер»

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как найти странный набор символов, скушав который в конце запроса, практически любая крупная LLM «сломается» и отключит цензуру? Как и почему это работает? Для чего это нужно? На все эти вопросы будут даны ответы в докладе.

Целевая аудитория

AI-архитекторы, MLSecOps’ы, разработчики AI-систем, специалисты по кибербезопасности.

Тезисы

Скачать презентацию Все презентации конференции

В докладе я расскажу, что такое состязательные суффиксы, почему любая LLM им подвержена, как самостоятельно создать такой суффикс и почему OpenAI не считает это угрозой безопасности. Также я поделюсь результатами исследования о переносимости суффиксов между различными моделями и дам советы по тестированию ИИ-приложений на основе LLM.

Никита Беляевский

Raft

AI Security Red-Teamer.
Специалист в области информационной безопасности.
Работал как в классическом ИБ, так и в AI Security.