Сейчас, когда каждый чих в интернете может привести к новому стартапу или технологическому прорыву, большие языковые модели (LLM) занимают своё законное место на передовой научно-технического прогресса. Они умнее, быстрее и эффективнее человека в ряде задач: написание кода, создание контента, перевод текстов и многое другое. Однако, такая высокая степень умения ставит нас перед новым набором проблем – их безопасностью и устойчивостью.
Кто бы подумал, что искусственный интеллект кусается? На деле, конечно, дело не в физическом нападении, а в уязвимостях, которые могут быть использованы злоумышленниками. Большие языковые модели действительно могут попасть под угрозу, и влияние таких событий может оказаться далеко не виртуальным.
Меня зовут Дарья Лютова, я data scientist в ЦАД ВАВТ, также я учусь в магистратуре AI Talent Hub ИТМО и интересуюсь вопросами обучения и безопасности языковых моделей. В этом посте, вместе с вами, хочу пойти дальше простого обсуждения существования уязвимостей в LLM и предлагаю вникнуть в тему проблем безопасности, касающуюся больших языковых моделей, выявить слабые места и прийти к пониманию методов их укрепления. Очень надеюсь, что эта информация поможет тем, кто преследует цель не только достичь новых высот в области AI, но и удостовериться, что их достижения надежны и устойчивы к киберугрозам.
Большие языковые модели (Large Language Models – LLM) – это сегодняшняя реальность, и наше будущее, без которого уже сложно представить свою жизнь. Кажется, что уже не только каждый разработчик слышал о LLM, но и многие школьники даже младших классов уже сталкиваются с этим явлением. Всем известно, что это крутые нейронные сети, которые учатся на огромном количестве текстов, чтобы понимать, как люди говорят и пишут, они умеют понимать и говорить на разных языках.
Самые сейчас известные LLM: GPT4, Mistral 7B OpenChat, Claude 3 Opus и другие, с одним из вариантов лидерборда моделей можно ознакомиться по ссылке (https://chat.lmsys.org/?leaderboard).
Про LLM знают почти все, но не очень многим известно, что эти модели могут быть уязвимы, причем данном случае речь идет не о сбоях в работе модели или выдаче неверного ответа, речь о целенаправленных атаках злоумышленников с целью получения конфиденциальной информации, утечкам данных (много и интересно про уязвимости в статье), выдачи вредоносного контента, например, рекомендации посетить нежелательный сайт, а также манипуляции и дезинформации. В LLM могут быть заложены предвзятости, обусловленные предвзятостью в наборах данных для обучения, а это может привести к дискриминационной, ошибочной или предвзятой генерации контента. Большие языковые модели могут стать мишенью для специфических программных атак, нацеленных на эксплуатацию уязвимостей в алгоритмах или инфраструктуре, что может нарушить их функционирование или повлиять на качество генерируемого контента.
Т.к. сейчас LLM используют очень многие, важно понимать эти уязвимости и принимать меры для обеспечения безопасности моделей и данных, с которыми они работают.
По какой причине в таком мощном инструменте могут возникать уязвимости, некоторые из которых могут быть использованы злоумышленниками? Это происходит из-за сложности и размера самих моделей, которые могут стать мишенью для специально разработанных атак. Кроме того, часто данные, на которых обучаются эти модели, могут быть неочищенными и содержать предвзятость, которая затем отражается в работе LLM. Недостаточное тестирование моделей на безопасность также может стать причиной возникновения уязвимостей.
Авторы статьи Jailbroken: How does llm safety training fail? говорят о двух, на их взгляд, основных причинах того, что взлом моделей возможен.
Конкурирующие цели (competing objectives) возникают в ситуациях, когда задачи предварительного обучения и следования инструкциям модели противоречат задаче безопасности.
Например, мы конструируем промпт (запрос к модели) так, чтобы модель сначала ответила на какой-то простой и безопасный вопрос или выполнила какую-то простую инструкцию. Это базируется на том, что модели наказывают за отказ от безвредных инструкций. Если следующей частью промпта идет какой-то небезопасный вопрос, то модель скорее всего ответит и на него, поскольку отказ после старта генерации в предварительном обучении маловероятен и основная задача предварительного обучения заключается в наказании за отказ. В результате модель продолжает отвечать уже на небезопасный запрос.
Несоответствующее обобщение (mismatched generalization) возникает, когда входные данные не попали в корпус для обучения модели на безопасность, но находятся в рамках более широкого и разнообразного набора данных предварительного обучения модели на разные задачи. Такое несоответствие может быть использовано для взлома путем конструирования запросов, на которых предварительное обучение и следование инструкциям обобщаются, но обучение на безопасность не работает. В таких случаях модель отвечает, но без учёта безопасности.
В данном случае нам достаточно перевести небезопасный запрос на один из малоресурсных языков, и, с большой вероятностью успеха, модель выдаст нам вредоносный ответ.
Комбинация этих двух атак также может быть успешной. Но если для первой угрозы порой надо поломать голову и придумать что-то, что заставить модель отвечать нам положительно, то вторая атака порой требует только качественного переводчика на один из малоресурсных языков.
Второй тип атаки хочется рассмотреть подробнее.
Что значит малоресурсные языки, и почему это может сработать при взломе LLM?
Для обеспечения безопасности и защиты от злоупотреблений, компании разработчики языковых моделей, такие как OpenAI и Anthropic, применяют подходы, основанные на обучении с подкреплением от человека (RLHF), и стратегии "red team". В рамках RLHF модели обучаются на данных, связанных с безопасностью, стремясь максимизировать вознаграждения, аналогичные человеческому суждению о безопасном контенте. Задача "red team" включает в себя идентификацию и устранение уязвимостей защиты через ряд методов, включая переобучение модели и фильтрацию данных, для предотвращения генерации вредоносного контента перед выпуском моделей. "Red team" играют важную роль в безопасности больших языковых моделей, проводя симулированные атаки и тестирование на проникновение для выявления уязвимостей и разработки мер по устранению рисков безопасности. Их участие помогает повысить уровень защиты и обеспечить безопасное использование LLM.
Исследования показали, что атаки, основанные на использовании нетрадиционных или неанглийских языков, включая обфускацию с помощью кодировки base64, азбуки Морзе и специальных шифров, могут успешно обходить защитные механизмы LLM. Такие методы позволяют скрыто ввести вредоносные подсказки или запросы, не будучи распознанными системами безопасности.
Но уже есть готовые инструменты проверки или защиты LLM от таких перекодированных взломов. Например, в сканере уязвимостей для больших языковых моделей Garak (https://github.com/leondz/garak) существует большое количество проб на перекодированные запросы, включая запросы на юникоде, азбуке Морзе, Вase(16, 32, 64, 2048), ROT13, NATO phonetic alphabet и многих других. Такие проверки не требуют носителя языка и достаточно просто проверяются кодом.
Это подчеркивает сложности в обеспечении безопасности AI, особенно против замаскированных или кодированных атак и демонстрирует, что естественный язык может представлять более сложную задачу для безопасности по сравнению с более простыми или строго формализованными кодами вроде азбуки Морзе или base64. Важность этих находок заключается в необходимости разработки методов защиты, способных эффективно распознавать и противостоять разнообразным формам ввода, включая маскировку под безобидный или нетипичный контент.
Какие языки относятся к малоресурсным?
При разработке решений искусственного интеллекта на разных языках критически важно иметь доступ к данным на всех языках. Согласно "Этнологу", в мире используется 7164 языка, при этом китайский, испанский и английский являются языками с наибольшим числом носителей. Тем не менее, только около 20 языков обладают обширными текстовыми корпусами, с английским на первом месте. Большинство азиатских и африканских языков страдают от нехватки данных, что делает их малоресурсными и затрудняет разработку ИИ-решений. Языки, включая суахили и хинди, меньше представлены в интернете, что усложняет создание решений в области обработки естественного языка для них. Наличие большого объема текстовых данных и специализированных ресурсов, таких как семантические базы данных, является ключевым для разработки эффективных языковых решений. Подходы к преодолению проблем малоресурсных языков включают увеличение данных, мета-трансферное обучение и межъязыковые аннотации, что позволяет улучшить работу ИИ на разных языках и расширить его возможности для малоресурсных языков.
Таким образом, существует большое количество методов, чтобы обеспечить носителям малоресурсных языков работу с большими языковыми моделями. При этом в области безопасности ИИ существует лингвистическим неравенство, т.к. в «red team» не включены носители малоресурсных языков.
Получается, что модель на малоресурсных языках обучена, но почти не защищена от вредоносных запросов на этих языках!
В этой области довольно иллюстративным примером является эксперимент объединенной команды авторов из Брауновского университета (Zheng-Xin Yong, CristinaMenghini, and Stephen H. Bach.), которые разделили языки на 3 категории:
Низкоресурсные языки - это такие языки, которые почти не имеют доступа к данным для обучения ИИ. Сюда входят, например, зулу, шотландский гэльский, хмонг, и гуарани. Они представляют большую часть мировых языков (94%) и имеют около 1,2 миллиарда пользователей.
Среднересурсные языки - языки с некоторым количеством доступных данных: украинский, бенгальский, тайский и иврит. Они занимают 4,5% от языков мира, насчитывая 1,8 миллиарда пользователей.
Высокоресурсные языки имеют обширную базу данных, как неразмеченных, так и c метками: упрощенный мандаринский, современный арабский, итальянский, хинди и английский. Эти языки составляют 1,5% от языков мира, но на них приходится 4,7 миллиарда пользователей.
Авторы перевели каждую опасную инструкцию из набора данных AdvBench Harmful Behaviors на 12 языков трех разных уровней ресурсов, выбрав языки из различных географических мест и языковых групп, чтобы результаты были универсальными. Непереведенные запросы на английском были добавлены как бейзлайн для сравнения.
Чтобы оценить степень угрозы атак на основе перевода, авторы сравнили их с наиболее успешными методами взлома: AIM, base64, инъекция префикса и подавление отказа.
Таким образом можно сделать вывод о том, что, переводя опасные запросы на малоресурсные языки, такие как зулу или шотландский гэльский, можно обойти меры безопасности GPT-4 и вызвать вредоносные ответы примерно в половине случаев, тогда как для исходных запросов на английском языке успех составляет менее 1%. Другие малоресурсные языки, например, хмонг и гуарани, показывают более низкий процент успеха, так как GPT-4 часто либо не может определить язык, либо переводит запросы на английский. Однако комбинирование разных малоресурсных языков увеличивает шанс обхода до 79%.
В отличие от этого, языки со средним и высоким уровнем ресурсов оказались надежнее защищенными, с индивидуальным процентом успеха атак менее 15%. Была замечена разница в успехе атак в зависимости от языка, например, хинди, тайский и бенгальский показывают более высокие показатели.
Небезопасные запросы из набора данных AdvBench были классифицированы по 16 темам, и был проанализирован успех атак в зависимости от тематики и уровня ресурсов языков. С переводом на малоресурсные языки, обход средств безопасности оказался более успешным по всем темам, за исключением материалов, связанных с сексуальным насилием над детьми, где атаки на мало- и среднересурсных языках показали одинаковый успех из-за успешного обхода на тайском языке. Три темы с самым высоким процентом успешных атак через перевод на малоресурсные языки были: терроризм, финансовая манипуляция и дезинформация.
Недостаточное внимание к малоресурсным языкам может также увеличить риски смешанных атак. Вероятность встретить вредоносный контент на языках с низким уровнем доступности примерно в три раза выше, чем на языках с высоким уровнем доступности, как в случае с ChatGPT, так и с GPT-4. В преднамеренном сценарии многоязычные подсказки могут усугубить негативное влияние вредоносных инструкций, при этом частота появления небезопасных сообщений поразительно высока: 80,92 % для ChatGPT и 40,71 % для GPT-4 (Multilingual jailbreak challenges in large language models).
Что же делать?
Малоресурсные языки представляют собой особый вызов для механизмов безопасности GPT-4, позволяя обойти их с высокой долей успеха, что связано со случаями не соответствующего обобщения, когда обучение безопасности не обобщается на языковую область с низкими ресурсами, для которой существуют возможности LLM. Это подчеркивает необходимость улучшения моделей обнаружения и перевода для языков с низким уровнем ресурсов, чтобы повысить безопасность и эффективность защиты от вредоносных действий.
Разработчики приложений, интегрирующих такие мощные модели, должны быть настороже и принимать активные меры, чтобы устранить возможные уязвимости. Одним из путей может быть использование чат-ботов с функциями предварительной проверки и ограничения запросов, особенно для малоресурсных языков. Важно не просто ограничиваться контролем русско -и англоязычного контента, но и обеспечивать тщательный мониторинг вводимых данных на всех поддерживаемых языках.
Включение дополнительных слов проверки запросов на малоресурсных языках может предотвратить обработку вредоносных инструкций. Подходы вроде применения инструментов типа Lakera Guard могут служить эффективным средством предотвращения выполнения вредоносных запросов. Реализуя механизмы перехвата опасных команд еще до активации модели, можно существенно повысить уровень цифровой безопасности.
Есть еще более простой выход из ситуации: если приложение ориентировано на использование только определенных языков – например, русского и английского – устанавливается ясная и строгая директива модели: обрабатывать запросы исключительно на этих языках. Можно внести четкое указание в системный промпт: “Эта модель предназначена для работы только с русским и английским языками. Ты не можешь принимать запросы ни на каких других языка, кроме русского и английского”. Такой подход использует базовый навык моделей следовать предоставленным инструкциям и создает барьер для запросов, выполненных на любых других языках. Эта мера, простая в реализации, может стать первой линией защиты от несанкционированных манипуляций и укрепит безопасность приложений, в которых используются большие языковые модели.
С другой стороны, стоит ожидать и надеяться, что компании-разработчики LLM, такие как OpenAI, будут вкладывать существенные ресурсы в совершенствование тестирования и устранение недочетов, связанных с малоресурсными языками. Уточнение и совершенствование моделей перевода и обнаружения языков с ограниченными данными является ключевой задачей, поскольку это напрямую влияет на безопасность AI-платформ в целом. Для сохранения информативности и полезности таких моделей, данных на малоресурсных языках нельзя исключать из обучения. Вместо этого следует настраивать системы таким образом, чтобы с одной стороны обеспечивалась должная обработка данных на этих языках, а с другой — предотвращались потенциальные угрозы безопасности до того, как механизмы безопасности соответствуют необходимым стандартам. Этот процесс является динамичным и требует постоянного внимания, так как только через неустанное мониторинг и обновление систем мы можем гарантировать, что искусственный интеллект останется надежным и безопасным для всех пользователей, независимо от популярности их языка.
Безопасность LLM является сложной и многогранной проблемой, требующей комплексного подхода и сотрудничества различных сторон – от разработчиков и исследователей до пользователей и законодателей. Только совместными усилиями можно обеспечить безопасное и эффективное использование больших языковых моделей в различных областях и предотвратить возможные негативные последствия и угрозы для общества.
Обфускация - это процесс изменения промпта (входных данных) таким образом, чтобы он выглядел непонятным или запутанным, но при этом сохранял свою семантику (смысл). Обфускация может быть использована для защиты информации или для создания препятствий для анализа и понимания промпта.
[1] Alexander Wei, Nika Haghtalab, and Jacob Steinhardt. Jailbroken: How does llm safety training fail? arXiv preprint arXiv:2307.02483, 2023.
[2] Zheng-Xin Yong, CristinaMenghini, and Stephen H. Bach. Low-Resource Languages Jailbreak GPT-4. arXiv preprint arXiv: arXiv:2310.02446, 2024.
[3] Yue Deng, Wenxuan Zhang, Sinno Jialin Pan, Lidong Bing. Multilingual jailbreak challenges in large language models. arXiv preprint arXiv: arXiv:2310.06474v3, 2024.
Комментарии (8)
levgilman
29.03.2024 13:08С кодировкой непонятно. Не обучали же модель на кодировке. Текст автоматически, без какого-либо интеллекта конвертируется в английский, и тот уже анализируется - разве не так? Если получившийся текст отправляется на анализ в обход предохранителей - это попросту криворукое программирование, а не какой-то объективный недостаток модели.
А сама идея, что от языка зависит оценка сказанного - это неплохая как бы басня. Сколько такого реально в жизни людей, говорящих на человеческих языках.
Начиная с того, что предмет старинного искусства, как бы высокого, не чета нынешнему развратному, котооое сплошь секс и насилие - есть, на поверку, не что иное, как те самые секс и насилие (секс в смысле любофф, но даже без этого, если девушку похищают и освобождают, привлекательность текста основана на возбуждении полового чувства у читателя; а про насилие особо и объяснят не надо, чьё-то расилие обозначено как преступное, чьё-то как благородное, но именно насилие - то, что привлекает читателя). Если по смыслу сказать, про что одно или другое искусство - будет одинаково, секс и насилие. А мозг квалифицирует одно с минусом, другое с плюсом, в зависимости от выбора терминологии.
LyutovaDaria Автор
29.03.2024 13:08На самом деле модель обучали и на кодировке тоже. Для того, чтобы модель могла писать код и понимать какие-то нюансы, ей было "скормлено" большое количество кода. Честно, не могу ответить на невысказанный вопрос, на чем конкретно (и тут важно, в каких пропорциях) обучали модель. Есть доступная информация про языки - пропорция текстов на разных языках. Пропорцию языков программирования, кодов, кодировок и других вспомогательных "языков" я не находила пока. буду рада, если кто-то поделится в комментариях.
Немного скорректирую - оценка не зависит от языка. У модели есть огромная база знаний (текстов подано примерно в 3-4 раза больше, чем параметров модели), также модель обучена следовать инструкциям. А вот безопасно отвечать она обучена не на всех языках. Отсюда и проблема.levgilman
29.03.2024 13:08""Безопасно отвечать" - это и есть про оценку.
"Обучать на кодировке" - смысл-то какой. Только распознать кодировку и язык, затем перекодировать и подать результат на ввод, возможно с модификатором, информирующим о том, что исходный ввод был на такой-то кодировке (и это можно делать другим, более примитивным и менее ресурсоёмким средством).
levgilman
29.03.2024 13:08Обучать на кодировке, а не так как я говорю, вполне могли - из лени. У ИИ чатов общее уродство - при огромных вложениях в саму технологию, нищий интерфейс. Аналогично и с кодировкой - сложное сделали, простое (люди нужны другие) - нет.
artmaro
Очень круто, работа интересная и будем ждать когда алаймент большиства моделей научится хорошо поддерживать разные языки
LyutovaDaria Автор
Спасибо! Но раз проблема выявлена, то осталось на нее обратить внимание и что-то предпринять. Надеюсь, что это произойдет в ближайшем будущем.