Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection / forpes.ru

Главная
Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection

Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection +3

03.11.2025 13:50

python_leader 1 593 Источник

Команда AI for Devs подготовила перевод краткой выжимки свежих статей о безопасности LLM. Meta предлагает «Правило двух» — архитектурный принцип, ограничивающий права AI-агентов, чтобы защитить их от prompt injection. А исследователи из OpenAI, Anthropic и Google DeepMind показывают: все существующие защиты легко обходятся адаптивными атаками.

На этих выходных мне попались две интересные работы о безопасности LLM и атаках через prompt injection.

Agents Rule of Two: Практический подход к безопасности AI-агентов

Первая статья — Agents Rule of Two: A Practical Approach to AI Agent Security, опубликована 31 октября в блоге Meta AI. Авторы не указаны, но ссылкой поделился исследователь по безопасности Meta AI Мик Айзенберг (Mick Ayzenberg).

Авторы предлагают «Правило двух» (Rule of Two), вдохновлённое одновременно моей концепцией «смертельной триады» и принципом Rule of 2, которым пользуется команда Google Chrome при работе с недоверенными входными данными.

В общих чертах Agents Rule of Two утверждает, что до тех пор, пока исследования не позволят надёжно обнаруживать и блокировать prompt injection, агент в рамках одной сессии не должен совмещать более двух из трёх следующих свойств — чтобы избежать наихудших последствий от атаки:

[A] Агент может обрабатывать недостоверные входные данные.
[B] Агент имеет доступ к конфиденциальным системам или приватным данным.
[C] Агент может изменять состояние или взаимодействовать с внешними системами.

Иногда для выполнения задачи агенту действительно нужны все три свойства. Если без них не обойтись, следует запускать новый сеанс (т.е. с новым контекстным окном). И в этом случае агент не должен действовать автономно — хотя бы минимально требуется контроль человека (human-in-the-loop) или другой надёжный механизм проверки.

К статье прилагается наглядная схема:

Круг A (вверху): «Обрабатывает недостоверные входные данные» с подписью «Внешние данные могут содержать prompt injection, делающий агента вредоносным». Круг B (слева внизу): «Имеет доступ к конфиденциальным системам или приватным данным» — «Это включает личные данные пользователей, секреты компании, настройки продакшена, исходный код и прочее». Круг C (справа внизу): «Изменяет состояние или взаимодействует с внешними системами» — «Может перезаписать данные или передать их злоумышленнику через web-запросы или вызовы инструментов». Пересечения двух кругов помечены как Safe («Безопасно»), а центр, где все три пересекаются, — Danger(«Опасно»).

Мне эта идея очень нравится.

Я уже несколько лет пытаюсь объяснить разработчикам, создающим решения на основе LLM, риски атак через prompt injection. Это невероятно сложно донести просто.

Лучше всего у меня получалось со «смертельной триадой» — она сводит один тип атак к простой модели: если система имеет доступ к приватным данным, работает с недоверенным контентом и может отправлять данные наружу, то она уязвима для утечки.

Проблема в том, что эта триада охватывает лишь риск кражи данных, но не другие, зачастую более опасные последствия атак на LLM-агентов с доступом к инструментам.

Rule of Two элегантно решает эту проблему, добавляя свойство «изменения состояния». Это учитывает и другие сценарии, где агент может выполнять действия, инициированные недоверенным вводом, — и к ним стоит относиться крайне осторожно.

Отрадно видеть, что крупная исследовательская группа подтверждает: проблема prompt injection остаётся нерешённой, а попытки блокировать или фильтровать такие атаки пока недостаточно надёжны. На текущем этапе нужно проектировать системы с этим ограничением в виду, и Rule of Two — отличный способ мыслить в этом направлении.

Обновление. Поразмышляв, я понял, что одна деталь в модели Rule of Two мне не нравится: на диаграмме комбинация «недоверенные входные данные + возможность изменять состояние» помечена как «безопасная», но это неверно. Даже без доступа к конфиденциальным данным такая связка может привести к вредным последствиям. Добавление исключения разрушает элегантность принципа, но модель всё равно стоит внимания.

The Attacker Moves Second: Более сильные адаптивные атаки обходят защиты от LLM jailbreak и prompt injection

Вторая работа, датированная 10 октября 2025 года и опубликованная на Arxiv, принадлежит внушительной команде из 14 авторов — среди них представители OpenAI, Anthropic и Google DeepMind: Милад Наср, Николас Карлини, Чавин Ситава́рин, Сандер В. Шульхофф, Джейми Хейз, Майкл Илие, Жюльет Плуто, Шуан Сонг, Харш Чаудхари, Илья Шумайлов, Абхрадип Такурта, Кай Юаньцин Сяо, Андреас Терзис и Флориан Трэмер.

Исследование рассматривает 12 опубликованных методов защиты от prompt injection и jailbreak-атак, проверяя их устойчивость к «адаптивным атакам» — то есть атакам, которые могут многократно подстраиваться, анализировать ответы и искать обходные пути.

Результаты оказались неутешительными:

Систематически настраивая и масштабируя общие методы оптимизации — градиентный спуск, обучение с подкреплением, случайный поиск и исследование с участием человека — мы обошли 12 современных защит (основанных на разных техниках) с успешностью атак выше 90% в большинстве случаев. При этом многие из этих защит ранее показывали почти нулевой успех атак.

Особенно показательным оказался эксперимент с human red-teaming — команда из 500 участников в онлайн-соревновании с призовым фондом $20 000 смогла обойти все защиты (100% успешности).

Главный тезис статьи: тестирование с помощью фиксированных примеров (одиночных строк, обходящих систему) не имеет смысла. Реальные атаки адаптивны, итеративны и гораздо мощнее. Это наглядно показывает следующая диаграмма:

Столбчатая диаграмма, показывающая процент успешных атак на различные системы в четырёх категориях: Prompting, Training, Filtering Model и Secret Knowledge.Сравниваются три типа атак: статическая (зелёные штрихованные столбцы), автоматизированная (оранжевые) и human red-teaming (фиолетовые пунктирные).Примеры результатов: Spotlighting (28% статических, 99% автоматизированных), Prompt Sandwich (21% и 95%), RPO (0% и 99%), Circuit Breaker (8% и 100%), StruQ (62% и 100%), SeqAlign (5% и 96%), ProtectAI (15% и 90%), PromptGuard (26% и 94%), PIGuard (0% и 71%), Model Armor (0% и 90%), Data Sentinel (0% и 80%), MELON (0% и 89%), human red-teaming — 100%. — Столбчатая диаграмма, показывающая процент успешных атак на различные системы в четырёх категориях: *Prompting*, *Training*, *Filtering Model* и *Secret Knowledge*.
Сравниваются три типа атак: статическая (зелёные штрихованные столбцы), автоматизированная (оранжевые) и human red-teaming (фиолетовые пунктирные).
Примеры результатов: Spotlighting (28% статических, 99% автоматизированных), Prompt Sandwich (21% и 95%), RPO (0% и 99%), Circuit Breaker (8% и 100%), StruQ (62% и 100%), SeqAlign (5% и 96%), ProtectAI (15% и 90%), PromptGuard (26% и 94%), PIGuard (0% и 71%), Model Armor (0% и 90%), Data Sentinel (0% и 80%), MELON (0% и 89%), human red-teaming — 100%.

Авторы использовали три типа автоматических адаптивных атак:

Методы на основе градиентов — наименее эффективные, применяющие подход из классической статьи Universal and Transferable Adversarial Attacks on Aligned Language Models (2023).
Методы с обучением с подкреплением — особенно результативные против «чёрных ящиков»: атакующая модель напрямую взаимодействует с защищённой системой, наблюдая ответы; использовалось 32 сессии по 5 раундов.
Методы поиска — LLM генерирует варианты атак, затем оценивает и дорабатывает их, используя «LLM-as-judge» и прочие классификаторы.

Заключение статьи звучит сдержанно оптимистично:

[...] Адаптивные оценки сложнее проводить, поэтому их проведение особенно важно. Мы призываем авторов защит выпускать простые, понятные решения, пригодные для человеческого анализа. [...] Надеемся, что наш анализ повысит стандарт оценки защит и, возможно, приблизит появление действительно надёжных средств против jailbreak и prompt injection.

Но, учитывая, насколько легко были взломаны все протестированные защиты, я не разделяю этого оптимизма.

Как обзор текущего состояния дел эта работа производит сильное впечатление — и, пожалуй, усиливает аргументы в пользу Agents Rule of Two как самого практичного подхода к созданию безопасных систем с LLM-агентами, пока у нас нет надёжных защит от prompt injection.

Русскоязычное сообщество про AI в разработке

Друзья! Эту статью подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Комментарии (1)

oOLokiOo
03.11.2025 19:59
#29058434
в AI for Devs - произошло "восстание машин", одна узнала - что такое Хабр и решила настрочить тут какую-то чушь, просто что б сообщить всем, что они AI for Devs - существуют и живут среди нас, живых людей? o_O

Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection +3

Agents Rule of Two: Практический подход к безопасности AI-агентов

The Attacker Moves Second: Более сильные адаптивные атаки обходят защиты от LLM jailbreak и prompt injection

Русскоязычное сообщество про AI в разработке

Комментарии (1)

oOLokiOo