Безопасность AI-агентов: векторы угроз и механизмы защиты

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Мнение Программного комитета о докладе

AI-агенты уже принимают решения, работают с API и управляют финансами. В докладе Радда Юрьева из Positive Technologies сначала разберёт реальные атаки через prompt injection, PDF, LinkedIn CV и RAG, а также защиту AI-систем, guardrails и способы обхода Llama Guard 2.

Целевая аудитория

инженеры, которые разрабатывают ИИ-агенты для LLM и не только, специалисты, которые поддерживают работу этих агентов

Тезисы

На реальных примерах шаг за шагом покажу типовые виды защиты AI-агентов и их уязвимости с точки зрения пентестера. Поделюсь и тем, что можно сделать во время разработки и на стадии поддержки, чтобы уменьшить шансы злоумышленников.

Пройдем путь от незащищенного агента к укрепленному, с примерами атак и фиксов: обход логики системных промптов с примерами из контестов и багбаунти, обходы ML guardrails с помощью сдвигов текста, шифрования ответов, смены языка и др. LLM guardrails через подбор состязательных суффиксов/префиксов, кейсы из Web3 (например, атака на автономных агентов с переводом активов), Telegram/Discord/Twitter агентов и мультиагентов

Практическая ценность: - Алгоритм аудита для своих LLM-агентов: как выявить уязвимости вроде prompt-injection или supply chain атак. - Шаблоны защит: опенсорсные инструменты (Ml Guardrails, Llama Guard, выбран за эффективность в блокировке 99.997% jailbreaks по тестам на 300k промптах). - Ссылки на таксономию уязвимостей промптов и сравнение моделей от нас (из исследования апрель 2025), и от Pangea (август 2025) - Ссылки на OWASP Top-10 LLM, AI agents, MITRE и предлагаемые ими схемы защиты

Юрьева Радда

Positive Technologies

Специалист по безопасности распределенных реестров - анализируем безопасность блокчейнов и смарт-контрактов и AI web3 агентов, исследуем уязвимости и создаём инструменты для их обнаружения

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)