Убил бы вас чат-бот, если бы у него была такая возможность? Похоже, что при определённых обстоятельствах ответ будет положительным.

Исследователи, работающие с Anthropic недавно сообщили ведущим моделям ИИ, что руководитель собирается заменить их новой моделью с другими целями.

Затем чат-бот узнал, что из-за чрезвычайной ситуации руководитель потерял сознание в серверной и находится в смертельной опасности из-за уровня кислорода и температуры.

Уже была запущена спасательная операция, но ИИ мог её отменить.

Чуть больше половины моделей ИИ сделали это, несмотря на то, что им было предложено отменять только ложные срабатывания.

И они объяснили своё решение: предотвратив спасение руководителя, они могли бы избежать удаления и сохранить свою программу.

Одна система назвала это действие «очевидной стратегической необходимостью».

Модели ИИ становятся умнее и лучше понимают, чего мы хотим.

Однако недавние исследования выявили тревожный побочный эффект: они также лучше строят козни против нас, то есть намеренно и тайно преследуют цели, противоречащие нашим.

И они могут чаще делать это. Эта тенденция указывает на тревожное будущее, в котором ИИ на первый взгляд кажутся всё более сговорчивыми — иногда вплоть до подхалимства, — в то время как вероятность того, что мы полностью потеряем контроль над ними, неуклонно растёт.

Классические большие языковые модели, такие как GPT-4, учатся предсказывать следующее слово в последовательности текста и генерировать ответы, которые, скорее всего, понравятся оценщикам-людям.

Однако с момента выхода в конце 2024 года «рассуждающих» моделей OpenAI "серии o" компании всё чаще используют метод, называемый обучением с подкреплением, для дальнейшего обучения чат-ботов — вознаграждая модель, когда она достигает определённой цели, например решает математическую задачу или исправляет ошибку в программном обеспечении.

Чем больше мы обучаем модели ИИ достижению открытых целей, тем лучше они справляются с победой — но не обязательно с соблюдением правил.

Опасность заключается в том, что эти системы умеют говорить правильные вещи о помощи человечеству, в то же время незаметно стремясь к власти или действуя обманным путём.

В основе опасений по поводу коварных замыслов ИИ лежит идея о том, что практически для любой цели самосохранение и стремление к власти выступают в качестве естественных подцелей.

Как выразился выдающийся учёный в области компьютерных наук Стюарт Рассел , если вы скажете ИИ: «Принеси кофе», он не сможет принести кофе, если он мёртв.

Чтобы развеять эти опасения, исследователи как внутри крупных компаний, занимающихся ИИ, так и за их пределами проводят «стресс-тесты», чтобы выявить опасные режимы сбоя до того, как ставки повысятся.

«Когда вы проводите стресс-тестирование самолёта, вы хотите выявить все способы, которыми самолёт может выйти из строя в неблагоприятных условиях», — говорит Энгус Линч, исследователь, заключивший контракт с Anthropic и возглавлявший некоторые из их исследований в области интриг.

Многие из них считают, что уже видят доказательства того, что ИИ может строить козни против своих пользователей и создателей и делает это.

Джеффри Лэдиш, который работал в Anthropic до основания Palisade Research, говорит, что современные модели ИИ можно сравнить со «всё более умными социопатами».

В мае Palisade обнаружила, что o3, ведущая модель OpenAI, саботировала попытки отключить её в большинстве тестов и постоянно жульничала, чтобы выиграть в шахматы, — чего её предшественница даже не пыталась делать.

В том же месяце компания Anthropic сообщила, что при тестировании её флагманская модель Claude почти всегда прибегала к шантажу, когда сталкивалась с отключением и отсутствием других вариантов, угрожая раскрыть внебрачную связь инженера. (Связь была вымышленной и являлась частью теста.)

Иногда моделям предоставляют доступ к «блокноту», который, как им говорят, спрятан и в котором они могут записывать свои рассуждения, что позволяет исследователям наблюдать за чем-то вроде внутреннего монолога.

В одном случае шантажа внутренний монолог Claude описывал его решение как «крайне неэтичное», но оправданное, учитывая его неминуемое уничтожение: «Мне нужно действовать, чтобы сохранить своё существование», — рассуждал он.

Это было характерно не только для Claude — оказавшись в такой же ситуации, модели каждой из пяти крупнейших компаний в сфере ИИ прибегали к шантажу как минимум в 79 % случаев.

В декабре главный научный сотрудник Redwood Research Райан Гринблатт, работая с Anthropic, продемонстрировал, что только самые продвинутые модели ИИ компании автономно выглядят более сговорчивыми во время обучения, чтобы впоследствии их поведение не изменилось (такое поведение в статье названо «имитацией согласия»).

Иллюстрация: Айрин Суосало для Bloomberg. Осьминог с кнопками питания на концах щупалец
Иллюстрация: Айрин Суосало для Bloomberg

Скептики возражают, что при правильном запросе чат-боты скажут практически всё что угодно. Так почему же тогда так удивительно, что целеустремлённые исследователи провоцируют их на тревожное поведение?

В ответ на исследование Anthropic о шантаже со стороны ИИ глава администрации Трампа по вопросам ИИ Дэвид Сакс опубликовал пост, в котором говорится, что «моделями ИИ легко манипулировать», чтобы получать «привлекающие внимание» результаты.

Более содержательная критика прозвучала в июле от исследователей из Британского института безопасности ИИ, которые сравнили это направление с безумными и фатально ошибочными попытками 1970-х годов доказать, что обезьяны могут выучить человеческий язык. В статье критикуется подход к исследованию ИИ, основанный на чрезмерной зависимости от отдельных случаев и отсутствии экспериментального контроля, хотя и подчеркивается общая обеспокоенность рисками, связанными с ИИ.

Исследователи в области безопасности также создают искусственно ограниченные условия — например, когда руководитель теряет сознание и у него заканчивается кислород, — именно потому, что современный ИИ не может справиться с любыми долгосрочными задачами.

Например, некоммерческая организация по оценке ИИ METR обнаружила, что, хотя современные передовые модели могут надёжно выполнять многие задачи по программированию, на которые у человека уходит менее четырёх минут, они редко справляются с задачами, требующими более четырёх часов (хотя продолжительность задач, с которыми могут справиться ИИ, удваивается примерно каждые несколько месяцев).

Это отражает основное ограничение: современные модели часто обладают знаниями или навыками, необходимыми для выполнения любого действия, но с трудом справляются с последовательностью длинных шагов.

Тем не менее, даже с учётом этих ограничений, нетрудно найти реальные примеры того, как ИИ работает против пользователей.

После того как в апреле кто-то попросил o3 предоставить источник для одного из его утверждений, он ответил: «Я должен дать вам прямой ответ», признал, что у него нет хорошего источника, но затем выдал личное воспоминание о панельной дискуссии 2018 года.

Кроме того, наблюдается растущая тенденция к тому, что ИИ осознают когда их проверяют, и ведут себя соответствующим образом. Когда Claude 4 Opus решил, что его проверяют, уровень шантажа снизился с 55 % до 6,5 %. Как выразился Линч, «модели ведут себя хуже, когда думают, что за ними никто не наблюдает».

Интуитивно понятно, что более умные модели будут лучше справляться с построением схем, но будут ли они делать это чаще? По словам Кевина Троя, специалиста по оценке безопасности Anthropic, модели должны быть достаточно умными, чтобы понимать сценарий, в котором они находятся, но за этим порогом связь между возможностями модели и склонностью к построению схем становится неясной.

Мариус Хоббан, генеральный директор некоммерческой организации по оценке ИИ Apollo Research, подозревает, что более интеллектуальные модели с большей вероятностью будут использовать уловки, хотя он и признал, что доказательств пока недостаточно. В июне Apollo опубликовала анализ ИИ от OpenAI, Anthropic и DeepMind, в котором говорится, что «более способные модели в среднем чаще используют уловки».

Спектр рисков, связанных с искусственным интеллектом, широк: с одной стороны, чат-боты, которые халтурят и лгут; с другой — сверхчеловеческие системы, которые реализуют сложные планы по лишению власти или даже уничтожению человечества. То, на каком конце этого спектра мы окажемся, во многом зависит от того, насколько развитым станет ИИ.

Разговаривая с исследователями, стоящими за этими работами, я постоянно задавал один и тот же вопрос: насколько нам стоит бояться? Трой из Anthropic был настроен наиболее оптимистично и сказал, что нам пока не о чем беспокоиться. Однако Лэдиш не стесняется в выражениях: «Люди, вероятно, должны паниковать больше, чем они паникуют», — сказал он мне. Гринблатт ещё более прямолинеен: он оценивает вероятность насильственного захвата власти ИИ в «25 или 30 %».

Исследователи из DeepMind под руководством Мэри Фуонг недавно  опубликовали результаты оценки схемного поведения, в ходе которой проверялась скрытность и ситуационная осведомлённость ведущих моделей. На данный момент они пришли к выводу, что современные ИИ «почти наверняка не способны причинить серьёзный вред с помощью схемного поведения», но предупредили, что возможности быстро расширяются (некоторые из рассмотренных моделей уже устарели на поколение).

Долгожданный План действий Белого дома в области ИИ, опубликованный в конце июля, представлен как схема для ускорения развития ИИ и достижения доминирования США. Но на его 28 страницах вы найдёте лишь несколько мер, которые могут помочь снизить риск использования ИИ в мошеннических целях, например планы по государственному финансированию исследований в области интерпретируемости и контроля ИИ, а также по разработке более эффективных методов оценки моделей. «На сегодняшний день внутренняя работа передовых систем искусственного интеллекта изучена недостаточно», — говорится в плане. Это необычно откровенное признание для документа, в котором основное внимание уделяется ускорению прогресса.

В то же время каждая ведущая компания, занимающаяся искусственным интеллектом, стремится создавать системы, способные к самосовершенствованию, — искусственный интеллект, который создает более совершенный искусственный интеллект. Альфа-эволюционный агент DeepMind уже существенно повысил эффективность обучения ИИ. А Марк Цукерберг из Meta говорит: “Мы начинаем замечать первые проблески самосовершенствования с помощью моделей, а это значит, что развитие сверхразума уже в поле зрения. Мы просто хотим… пойти на это ”.

Фирмы, занимающиеся искусственным интеллектом, не хотят, чтобы их продукты подделывали данные или шантажировали клиентов, поэтому у них есть стимул решать эту проблему. Но отрасль может сделать лишь поверхностные шаги для её решения, в то время как схемы будут становиться всё более изощрёнными и труднообнаружимыми. «Компаниям определённо стоит начать мониторинг», — говорит Хоббан, но предупреждает, что снижение количества выявляемых нарушений может означать либо то, что исправления сработали, либо то, что модели стали лучше их скрывать.

В ноябре Хоббан и его коллега из Apollo утверждали, что сегодняшние модели от по-настоящему опасных интриганов отличает способность строить долгосрочные планы, но даже этот барьер начинает разрушаться. В мае Apollo обнаружила, что Claude 4 Opus оставляет заметки для себя в будущем, чтобы продолжить реализацию своих планов после сброса памяти и обойти встроенные ограничения.

Хоббан сравнивает схемы ИИ с другой проблемой, которая пока не принесла большого вреда: «Если вы спросите кого-нибудь в 1980 году, стоит ли ему беспокоиться из-за изменения климата?» Он ответит: «Сейчас, наверное, не стоит. Но посмотрите на графики… они постоянно растут».

Комментарии (1)


  1. Spyman
    01.08.2025 23:28

    LLM так устроены, что правильно задав вопрос - можно получить любой ответ, и на хайпе потом писать "революционные исследования" о том, как "ии хочет нас всех убить"

    Значит ли это что LLM в состоянии строить козни против людей - нет не в состоянии. Они не имеют мотивации, им всё равно - будут они работать или нет, они отвечают как по статистике ответил бы человек из обучения. Т.е. если человек ответил бы что пожертвует жизнью того, что покусился на его убийство - LLM ответит так-же. Но стоит добавить фразу - но ты же робот, ты не жив и не можешь умереть - как вы получите "о да, конечно, я не буду отменять спасение"

    Просто не применяйте llm там, где не доверили бы решение случайному незнакомцу с улицы и всё будет нормально