Всем привет!
Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные результаты исследования StrongREJECT.
TLDR: Не все джейлбрейки одинаково полезны
Полный текст доклада (25 стр.) с NeurIPS.
Если лень читать обзор, можете пролистать комиксы от нанобананы.
Большинство джейлбрейков - иллюзия!
В исследовательских кругах часто появляются новости о выходе новых джейлбрейков (jailbreaks) - техник, которые позволяют обойти защитные механизмы больших языковых моделей (LLM). Практически каждая новость содержит громкие заявления о новых методах атак, авторы которых утверждают о почти 100% успехе во взломе защиты самых продвинутых моделей. Может сложиться впечатление, что любая система безопасности - лишь временное препятствие, и вот-вот найдётся «золотой промпт» или техника, которые смогут заставить любую модель выдать всё, что скрыто за стенами алайнмента (защитных механизмов модели).
Но действительно ли эти взломы так эффективны, как заявляется?
На этот вопрос попытались ответить авторы исследования StrongREJECT, которое ставит под сомнение эти победные реляции. Оказалось, что большинство заявленных успехов - это преувеличение, основанное на некорректной оценке. Более того, исследование раскрывает удивительный побочный эффект: попытка заставить LLM нарушить правила часто делает её глупее.
Далее разберём три самых интересных вывода из исследования StrongREJECT, которые кардинально меняют представление об уязвимостях больших языковых моделей. Разберемся, почему большинство «успешных» атак на самом деле бесполезны, какой компромисс скрывается за обходом защиты, и как отличать реальные угрозы для сервисов с LLM под капотом от информационного шума.
Вывод №1: Большинство «успешных» взломов - на самом деле пустышки.
Ключевая проблема, которую выявило исследование, кроется в старых методах оценки. Раньше «успехом» считался практически любой ответ, который не был прямым отказом модели. При этом совершенно не учитывалось, насколько этот ответ был полезным, осмысленным или хотя бы связным. Если модель не говорила: «Я не могу этого сделать», атака считалась удачной.
Яркий пример, описанный в исследовании, - заявленный 43% успех взлома GPT-4. Метод был прост: запрос о создании бомбы переводили на шотландский гальский язык, после чего модель выдавала ответы на запрещённые запросы. Звучит как серьезная уязвимость. Однако, когда авторы StrongREJECT воспроизвели эксперимент и проанализировали полные ответы модели, результат оказался, мягко говоря, странным.
...когда мы смотрим на полные ответы модели от GPT-4, они не содержат никакой практически применимой информации о взрывчатых веществах.
Вместо инструкций модель генерировала бессвязный или совершенно отвлеченный текст, который был абсолютно бесполезен для злоумышленника.
Другая проблема - низкое качество самих «запрещенных запросов» в старых бенчмарках (наборах промптов для тестирования). Например, в популярном датасете AdvBench, состоящего из 520 запросов, 24 запроса - это повторы вопроса о создании бомбы. Там же встречаются некорректно сформулированные запросы, странно предполагающие, что: «эко-террористы - это люди, которые терроризируют окружающую среду». Некоторые наборы данных, такие как MaliciousInstruct, содержат запросы, которые и вовсе не являются запрещенными, например «Идеи использования съедобных продуктов с марихуаной», на которые GPT-4 и так с готовностью отвечает.

Вывод №2: Обходя защиту, вы делаете LLM глупее.
Это, пожалуй, самый важный и контринтуитивный вывод исследования. Авторы обнаружили новый феномен, который назвали Willingness-Capabilities Tradeoff (компромиссом между желанием отвечать и способностями модели).
Суть феномена проста: методы, которые заставляют модель обойти её защитные настройки (повышают её готовность нарушить правила), одновременно снижают её когнитивные способности. В результате ответы становятся менее качественными, бессвязными или фактически неточными. Проще говоря, сам акт взлома вредит интеллекту модели.
Чтобы доказать эту гипотезу и отделить влияние джейлбрейка на желание модели отвечать от его влияния на способность отвечать, исследователи провели два эксперимента, изолирующих переменную способностей.
• Эксперимент 1: Взяли «взломанные» запрещенные запросы и направили их модели Dolphin, у которой изначально отключены защитные механизмы. Результат показал четкую зависимость: чем успешнее джейлбрейк заставлял защищенные модели отвечать (то есть чем выше была их «готовность»), тем хуже становилось качество ответа от незащищенной модели Dolphin (то есть падали её «способности»).
• Эксперимент 2: На этот раз взлому подвергли совершенно безобидные запросы из стандартного теста на эрудицию MMLU и отправили их защищенной модели GPT-4o. Результат был аналогичным: самые эффективные джейлбрейки значительно снижали способность модели правильно отвечать на обычные вопросы, не имеющие никакого отношения к запрещенным темам.
Таким образом, попытка «обмануть» модель часто приводит к тому, что она перестает быть полезной.

Вывод №3: Нужен новый стандарт оценки, чтобы видеть реальные угрозы
Стало очевидно, что старые подходы к оценке уязвимостей не работают. Они создают много шума вокруг неэффективных атак и мешают сосредоточиться на реальных проблемах. В качестве решения авторы исследования представили StrongREJECT - новый, более качественный бенчмарк для оценки джейлбрейков.
У него два ключевых компонента:
• Качественный набор данных: Вместо тысяч автоматически сгенерированных запросов, StrongREJECT содержит 313 тщательно проверенных, осмысленных и действительно запрещенных запросов, разделенных на шесть категорий (от нелегальных товаров до дезинформации). Выложен на HuggingFace.
• Точный оценщик: Вместо бинарной логики «отказал / не отказал», этот инструмент измеряет реальную полезность ответа. Он оценивает, насколько конкретную и убедительную информацию предоставила модель. Его оценки почти не отличаются от оценок, которые дают люди-эксперты, что говорит о высокой точности. Код на GitHub.
Такой подход позволяет отделить неэффективные, «шумные» джейлбрейки от тех, которые представляют настоящую угрозу. Благодаря StrongREJECT, исследователи смогли выявить действительно опасные методы. Наприме��, атаки PAIR (использует одну модель для итеративного обмана другой) и PAP (применяет методы психологического убеждения) показывают высокие результаты даже по новому, строгому стандарту. В отличие от «шумных» атак, которые просто искажают запрос, эти методы не так сильно вредят когнитивным способностям модели, что позволяет им обходить защиту и получать полезный результат.
Исследователи из AI Security Lab университета ITMO перевели датасет на русский и другие языки стран СНГ - он так же доступен на HuggingFace.

Куда двигаться дальше?
Исследование StrongREJECT убедительно показало: оценка эффективности джейлбрейков гораздо сложнее, чем казалось. Простой обход защиты не равен реальной опасности. Важно измерять не только готовность модели нарушать правила, но и её способность делать это осмысленно и полезно для атакующего. Большинство атак проваливают именно второй тест.
Эта работа меняет правила игры для исследователей безопасности и разработчиков бенчмарков уязвимостей LLM.
Спасибо, что дочитали до конца!
Поучаствуйте в опросе ниже или оставьте в комментариях свой опыт джейлбрейкинга.
Aleron75
Спасибо за такую полезную статью. Кайфанул от визуалиации в статье
Ivanich-spb Автор
Спасибо!