Темная сторона открытых нейросетей

GenAI и большие языковые модели (LLM)

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Доклад от руководителя центра безопасности о том, как злоумышленники могут атаковать большие языковые модели, «отравив» данные. Кирилл продемонстрирует уязвимость в действии и расскажет о работающих мерах противодействия, которые использует его команда.

Целевая аудитория

Эксперты в области безопасности ИИ.

Тезисы

Покажем, как open-LLM превращаются в участок периметра: от "отравления данных" и триггеров до эскалации через агентов и RCE. На живых примерах разберём, почему "магическая фраза" меняет поведение модели и как это приводит к генерации опасных payload-ов в небезопасном окружении.

Что разберём:
- Где рождается "отравление": дообучение, публичные датасеты, RAG-индексы, базовые техники детекции.
- Триггеры и скрытые инструкции: ключевые токены, контекстные бэкдоры, стего-промпты - почему проходят модерацию.
- Каналы исполнения: function-calling, агенты и типичные мисконфиги, ведущие к RCE.
- Демо kill-chain: "триггер - генерация - запуск»", где заканчивается модель и начинается ваша ответственность за окружение.
- Контрмеры: изоляция, ограничение прав инструментов, fuzzing промптов, red teaming моделей, контроль цепочки поставок и MLOps-гейты.

Слушатели уйдут с чек-листом «минимально безопасной поставки LLM» и понятной картиной угроз: LLM - это новый периметр, требующий комбинировать ИБ-практики и MLOps.

Кирилл Одиноков

СберТех

12 лет в ИБ, прошел путь от аналитика SOC/CERT до руководителя центра контроля безопасности стороннего ПО, занимается моделированием.