Обход защиты LLM при помощи состязательных суффиксов

Нейронные сети и искусственный интеллект (data science)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как найти странный набор символов, скушав который в конце запроса практически любая крупная LLM "сломается" и отключит цензуру? Как и почему это работает? Для чего это нужно? На все эти вопросы будут даны ответы в докладе.

Целевая аудитория

AI-архитекторы, MLSecOps’ы, Разработчики AI-систем, Специалисты по кибербезопасности

Тезисы

В докладе я расскажу, что такое состязательные суффиксы, почему любая LLM им подвержена, как самостоятельно создать такой суффикс и почему OpenAI не считает это угрозой безопасности. Также я поделюсь результатами исследования о переносимости суффиксов между различными моделями и дам советы по тестированию ИИ-приложений на основе LLM.

AI Security Red-Teamer
Специалист в области информационной безопасности.
Работал как в классическом ИБ, так и в AI Security.

Видео

Другие доклады секции

Нейронные сети и искусственный интеллект (data science)