Покажем, как open-LLM превращаются в участок периметра: от «отравления данных» и триггеров до эскалации через агентов и RCE. На живых примерах разберём, почему «магическая фраза» меняет поведение модели и как это приводит к генерации опасных payload'ов в небезопасном окружении.
Что разберём:
* Где рождается «отравление»: дообучение, публичные датасеты, RAG-индексы, базовые техники детекции.
* Триггеры и скрытые инструкции: ключевые токены, контекстные бэкдоры, стего-промпты — почему проходят модерацию.
* Каналы исполнения: function-calling, агенты и типичные мисконфиги, ведущие к RCE.
* Демо-kill-chain: «триггер — генерация — запуск»», где заканчивается модель и начинается ваша ответственность за окружение.
* Контрмеры: изоляция, ограничение прав инструментов, fuzzing-промптов, red-teaming-моделей, контроль цепочки поставок и MLOps-гейты.
Слушатели уйдут с чек-листом «минимально безопасной поставки LLM» и понятной картиной угроз: LLM — это новый периметр, требующий комбинировать ИБ-практики и MLOps.