Покажем, как open-LLM превращаются в участок периметра: от "отравления данных" и триггеров до эскалации через агентов и RCE. На живых примерах разберём, почему "магическая фраза" меняет поведение модели и как это приводит к генерации опасных payload-ов в небезопасном окружении.
Что разберём:
- Где рождается "отравление": дообучение, публичные датасеты, RAG-индексы, базовые техники детекции.
- Триггеры и скрытые инструкции: ключевые токены, контекстные бэкдоры, стего-промпты - почему проходят модерацию.
- Каналы исполнения: function-calling, агенты и типичные мисконфиги, ведущие к RCE.
- Демо kill-chain: "триггер - генерация - запуск»", где заканчивается модель и начинается ваша ответственность за окружение.
- Контрмеры: изоляция, ограничение прав инструментов, fuzzing промптов, red teaming моделей, контроль цепочки поставок и MLOps-гейты.
Слушатели уйдут с чек-листом «минимально безопасной поставки LLM» и понятной картиной угроз: LLM - это новый периметр, требующий комбинировать ИБ-практики и MLOps.