Темная сторона открытых нейросетей

GenAI и большие языковые модели (LLM)

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад от руководителя центра безопасности о том, как злоумышленники могут атаковать большие языковые модели, «отравив» данные. Кирилл продемонстрирует уязвимость в действии и расскажет о работающих мерах противодействия, которые использует его команда.

Целевая аудитория

Эксперты в области безопасности ИИ.

Тезисы

Скачать презентацию Все презентации конференции

Покажем, как open-LLM превращаются в участок периметра: от «отравления данных» и триггеров до эскалации через агентов и RCE. На живых примерах разберём, почему «магическая фраза» меняет поведение модели и как это приводит к генерации опасных payload'ов в небезопасном окружении.

Что разберём:
* Где рождается «отравление»: дообучение, публичные датасеты, RAG-индексы, базовые техники детекции.
* Триггеры и скрытые инструкции: ключевые токены, контекстные бэкдоры, стего-промпты — почему проходят модерацию.
* Каналы исполнения: function-calling, агенты и типичные мисконфиги, ведущие к RCE.
* Демо-kill-chain: «триггер — генерация — запуск»», где заканчивается модель и начинается ваша ответственность за окружение.
* Контрмеры: изоляция, ограничение прав инструментов, fuzzing-промптов, red-teaming-моделей, контроль цепочки поставок и MLOps-гейты.

Слушатели уйдут с чек-листом «минимально безопасной поставки LLM» и понятной картиной угроз: LLM — это новый периметр, требующий комбинировать ИБ-практики и MLOps.

Кирилл Одиноков

СберТех

12 лет в ИБ, прошел путь от аналитика SOC/CERT до руководителя центра контроля безопасности стороннего ПО, занимается моделированием.