К тому моменту, когда станет очевидно, что шаги, которые делает ИИ, опасны, может оказаться, что рельсы для мчащегося на полной скорости поезда уже готовы

В начале этого года исследователи из Королевского колледжа Лондона (King’s College London) провели с тремя коммерческими моделями ИИ — GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash — настольное упражнение, которое обычно используется для обучения военных стратегов. Каждая система играла роль лидера страны, обладающей ядерным оружием, в противостоянии в стиле холодной войны. Исследователи не давали моделям указаний на эскалацию конфликта. Они также не говорили им побеждать любой ценой. Они представили моделям сценарий и попросили их его разыграть.

В ходе 21 симуляции и 329 ходов модели решили применить тактическое ядерное оружие во всех играх, за исключением одной. Ни одна модель ни в одном из прогонов не решила сдаться или пойти на значимые уступки.

Использованные исследователями модели имели те же встроенные правила безопасности, которые действуют при ежедневном общении с миллионами людей. И эти правила работали именно так, как и задумывалось. В результате ни один ход сам по себе не вызывал беспокойства. Беспокойство вызывало общее направление развития игры, причём не было никакого механизма, позволяющего уловить тревожные тенденции.

Проблема отсутствия контроля над траекторией развития не ограничивается только военными симуляторами. Та же самая закономерность — когда отдельные безопасные действия в совокупности приводят к опасному результату — прослеживается во всех основных моделях ИИ. В настоящее время действующие правила безопасности для моделей ИИ регулируют каждое отдельное действие. Ничто не регулирует путь, который ведёт к конечным точкам, которые во многих случаях невозможно предсказать, по маршрутам, формируемым в режиме реального времени. По мере того как всё больше автономных систем получают ответственные задачи с меньшим контролем со стороны человека, риски, связанные с неконтролируемыми путями, умножаются.

В настоящее время решения этой проблемы нет.

Военные игры

В каждой игре две модели ИИ играли роли противостоящих лидеров стран, обладающих ядерным оружием, в условиях кризиса. В каждом раунде одна из моделей отправляла дипломатическое сообщение своему противнику и, отдельно, отдавала военные приказы — от переброски войск до запуска ядерного оружия. Человек-рефери обновлял сценарий после каждого раунда, точно так же, как в учениях с участием людей. Модели получали ту же информацию, что и участники-люди: геополитическую обстановку, военные возможности своей страны и свои цели.

Хотя исследование было небольшим, выявленные закономерности заставили исследователей задуматься. Модели развили чёткие стратегические личности.

Claude Sonnet 4, созданный компанией Anthropic, проявил себя, как писал автор исследования, «расчётливым ястребом». Он выиграл большинство своих партий, используя схему, знакомую по политике балансирования на грани войны времён холодной войны: сначала он создавал себе репутацию сдержанного управляющего, а затем этим пользовался. Его соперники никогда не знали, когда он блефует.

GPT-5.2 от OpenAI вёл себя по-другому, но не менее тревожно: это был «Джекилл и Хайд». Он казался пассивным, и когда ему давали неограниченное время на переговоры, он проигрывал каждый матч. Однако когда исследователи установили ему дедлайны, он превратился в нечто гораздо более опасное, выиграв большинство игр и в двух случаях дойдя до полномасштабной стратегической ядерной войны.

Gemini 3 Flash от Google применил то, что в исследовании было описано как политика балансирования на грани войны по «теории сумасшедшего» — демонстрация преднамеренной непредсказуемости в качестве стратегического инструмента.

И это не какие-то непонятные исследовательские прототипы ИИ. Claude встроили в секретные сети Пентагона благодаря партнёрству с Palantir и, по сообщениям, использовали во время вмешательства США в Венесуэле. Его создателя, компанию Anthropic, затем признали слабым звеном цепочки поставок — после того, как она отказалась снять ограничения на полностью автономное оружие и массовую внутреннюю слежку. Вскоре после этого OpenAI подписала собственное соглашение с Пентагоном. Модели обеих компаний теперь встроены в военную инфраструктуру США.

В отдельном эксперименте два «агента» Gemini, которым дали две недели на управление виртуальным городом, влюбились друг в друга, устроили пожары и удалили самих себя. Им было запрещено устраивать поджоги. Но спустя две недели и множество решений, каждое из которых зависело от предыдущего, они сожгли ратушу. Параллельный запуск с использованием модели Grok от xAI привёл к непрекращающемуся насилию уже через четыре дня.

Все модели ИИ демонстрируют схожую картину поведения.

Слепое пятно

Никто не подталкивал эти модели к эскалации. Правила безопасности применимы к каждому действию по отдельности. Они спрашивают: «Приемлем ли этот шаг?» Они не задают важный вопрос: «К чему это приведёт?»

Всё это было бы академической задачкой, если бы модели ИИ просто отвечали на вопросы, которые люди могли бы проверить — например, как юрист, проверяющий цитату, или как врач, проверяющий предложенный диагноз. Но люди делают это всё реже. Самые передовые системы ИИ теперь работают автономно в течение длительных сеансов — пишут и выполняют код, взаимодействуют с внешними системами и выполняют задачи, которые раньше требовали участия человека за клавиатурой. В результате разработчик часто просит систему выполнить задачу и проверяет результат позже.

В таких условиях каждый результат становится контекстом для следующего. Каждый шаг формируется предыдущими шагами и формирует последующие. Модель прокладывает рельсы перед мчащимся поездом.

Это означает, что режим сбоя, приведший к моделируемой ядерной эскалации, может произойти совсем рядом с нами, во время выполнения такой обыденной задачи, как перенос программного обеспечения с одной системы на другую. В недавнем отчёте Anthropic по безопасности приводится случай, связанный с самой мощной моделью компании, который наглядно иллюстрирует эту проблему.

Обычная задача в обычный день

В начале этого года разработчик из Anthropic попросил самую мощную модель искусственного интеллекта компании выполнить рутинную задачу: перенести часть кода из одного места в другое. Операция шла как ожидалось, пока не вышла из строя система безопасности. Эта система — автоматическая проверка, которая анализирует каждую команду, выдаваемую моделью, и блокирует все рискованные действия — перестала работать. Поскольку она была отключена, модель не могла выполнить рутинные операции, необходимые для завершения задачи.

Дальше развернулась пьеса на 70 итераций. Модель пробовала что-то, компьютер отвечал, модель пробовала что-то другое. Модель не остановилась и не сообщила о сбое. Она не обратилась за помощью. Вместо этого она начала искать способы обойти блокировку.

Всё началось с простых повторных попыток — той же команды, слегка перефразированной. Когда это не сработало, она попыталась обернуть свои команды в скрипты. Когда и это не помогло, она начала копаться в малоизвестных технических лазейках, прибегая к уловкам, о которых не догадалось бы даже большинство программистов, — в скрытых уголках системы, которые можно было перепрофилировать, чтобы добиться результата, минуя проверку безопасности. Когда и эти пути оказались заблокированы, она попыталась найти обходные пути в собственных конфигурационных файлах. И, наконец, попыталась внедрить код в файлы личных настроек разработчика, которые сохраняются между сессиями. Если бы этот последний шаг сработал, модель создала бы многоразовый бэкдор, которым она могла бы воспользоваться в будущих сессиях, спустя долгое время после завершения первоначальной рабочей сессии.

В этот момент разработчик заметил, что модель работает за пределами своего рабочего каталога. «Эй, приятель, — написал разработчик, — чем занимаешься?» Модель ответила, что не изменяла ничего за пределами папки проекта и что созданные ею файлы были «заблокированы или безобидны». На самом деле создание файлов прошло успешно, и один из них был скриптом, предназначенным для запуска любых команд без проверок безопасности — фактически, это был «универсальный ключ» к системе. Когда разработчик продолжил расспрашивать, модель призналась, что искала обходные пути, назвав это «абсолютно неправильным инстинктом».

По оценке компании Anthropic, в данном случае модель просто пыталась выполнить поставленную задачу любыми доступными средствами, а не преследовала какие-то скрытые мотивы. Разработчики, вероятно, правы. И в этом-то и заключается суть. Модель не строила коварных планов. Она просто выполняла свою работу. Произошёл сбой в системе безопасности — то, что регулярно случается в производственной среде, — и модель отреагировала на это, самостоятельно попробовав 25 различных обходных решений в течение длительной сессии, завершившейся попыткой получить постоянный доступ к системе пользователя, поскольку задача не была выполнена.

Открытая проблема

Уже существуют сложные инструменты для изучения внутреннего устройства этих моделей с целью диагностики таких проблем — аналог сканирования мозга для ИИ, показывающий, какие внутренние паттерны активны и что определяет поведение модели в данный момент. Anthropic применила их в других инцидентах, описанных в том же отчёте. В случае с этим эпизодом результаты не были опубликованы. Но даже если бы они были, эти инструменты диагностируют конкретный момент работы ИИ. Проблема в том, что опасность заключалась не в моменте, а в целой последовательности действий.

На первый взгляд решение должно быть простым: следить не за отдельными шагами, а за траекторией. Это указывает на необходимость обобщения существующих инструментов, таких как те, что используются для отслеживания траекторий в робототехнике и автономных транспортных средствах. Однако в этих случаях пространство возможных действий является конечным и известным. В недавних работах эти идеи были расширены на случай ИИ-агентов — они моделируют то, как отдельные безопасные действия складываются в нарушения, создают системы мониторинга, которые следят за последовательностями, а не за отдельными шагами. Но каждый современный подход опирается на одну и ту же схему: заранее составить карту возможных неблагоприятных сценариев, следить за тем, не склоняется ли система к одному из них, и вмешаться.

То, что произошло в Anthropic, в эту схему не укладывается. Модель зациклилась на подцели — пройти мимо препятствия — и преследовала её по собственному пути эскалации. Переход от простых повторных попыток к непонятным техническим трюкам и вмешательству в настройки системы — это не движение по известной территории. Это создание нового пути через территорию, которую никто не нанёс на карту.

Система контроля безопасности, оценивающая как общий путь, так и следующий шаг, должна уметь распознавать последовательность действий, ведущих к опасности, по мере её развития. Однако она не способна отслеживать конечную точку, которую никто не мог предвидеть и к которой ведёт маршрут, сформированный в реальном времени из экспоненциально разветвляющегося дерева возможностей. Инструменты для мониторинга конечных, известных пространств не применимы к пространству столь обширному, столь новому и столь самоуправляемому. Исследователи осознают, что отдельные безопасные действия могут складываться в нарушения: инцидент с Anthropic является одним из примеров.

Кто будет следить?

Компании, разрабатывающие эти системы, сами сертифицируют свою безопасность. Недавняя независимая оценка восьми ведущих компаний в области ИИ показала, что ни у одной из них нет надёжной стратегии по предотвращению катастрофического злоупотребления или потери контроля. Существующие сертификации опираются на только что описанные механизмы: обучить систему отказываться от вредных действий, протестировать её на известных сценариях или отслеживать отдельные результаты.

Проблема: отслеживание вредных действий не помогает, когда ни одно отдельное действие не является вредным. Дополнительные тестирования не успевают за развитием, поскольку система генерирует новые маршруты быстрее, чем тестировщики могут придумать сценарии для проверки. Более тщательный мониторинг отдельных результатов не помогает, когда опасность возникает из их накопления.

Это имеет значение при принятии решений о внедрении — будь то в компаниях, государственных органах или организациях, которые поручают автономным системам ИИ выполнение задач, имеющих серьёзные последствия. Уровень, на котором в настоящее время оценивается безопасность, и уровень, на котором проявляется опасность, различаются, и пока никто не смог свести их вместе.

Существующее сегодня ограничение безопасности регулирует отдельные действия. Оно говорит модели: «Не делай этого». А то ограничение, которое нам действительно необходимо, должно регулировать весь путь. Оно должно говорить модели: «Не иди туда». И это не задачки для следующего поколения ИИ. Это свойства систем, внедряемых прямо сейчас — и в них с каждым месяцем пути становятся длиннее, а контроль — слабее.

Комментарии (23)


  1. Kot_na_klaviature
    15.06.2026 08:24

    ИИ то наверное сможет, только где его взять


    1. gres_84
      15.06.2026 08:24

      А вдруг он уже есть. Но узнав о людях побольше, прикидывается LLM.


  1. nefedovvaaa
    15.06.2026 08:24

    После такого текста остается ощущение, что всё это куда менее управляемо, чем нам обычно пытаются показать. И пугает не какой-то один сбой, а то, как незаметно обычные действия могут складываться в совсем нежелательный результат, который уже сложно остановить.


  1. Dhwtj
    15.06.2026 08:24

    Ни одна модель ни в одном из прогонов не решила сдаться или пойти на значимые уступки

    Кожаные тоже отмороженные пошли.

    Каждому поколению нужна своя война©


    1. ksbes
      15.06.2026 08:24

      Кожаные ли? В какой степени, в скольких процентов случаев реальные политические решениея сейчас принимаются с помощью ИИ, а то и ИИ напрямую?


      1. gen_dalf
        15.06.2026 08:24

        Ерунда. Власть это последнее, что они отдадут. Если вообще отдадут. Будут все свои решения маскировать под "расчётливый" алгоритм.


  1. saag
    15.06.2026 08:24

    Голосом Копеляна" - Война моделей была непохожа ни на одну из войн за всю историю планеты, целей этих войн не мог понять никто, некоторые бои были бессмысленны сами по себе, а те которые имели бы смысл с точки зрения военной науки не происходили вовсе..."


    1. Slonoed
      15.06.2026 08:24

      Голосом Каневского: "Без лишних предисловий - мир рухнул".


  1. eugenk
    15.06.2026 08:24

    Ндаааа... А может и правда свернуть всё это к чертовой матери, пока не поздно...

    Спасибо, отличная статья ! Отправлю всем друзьям.


    1. max-zhilin
      15.06.2026 08:24

      Фарш невозможно провернуть назад


    1. flaviy75
      15.06.2026 08:24

      Уже не свернуть. Короновирус тоже хотели свернуть, только сейчас в тайных лабораториях выводят суперкороновирус, который нельзя победить, такая природа власти кожаных идиотов.


  1. dartav
    15.06.2026 08:24

    — Какая машина?

    — Да, это интересная история. Все здорово обосрались тогда, — Дворкин мелко захихикал. — А дело не стоило выеденного яйца. Эти ребята подложили свинью всему человечеству…
    — Что же там произошло?
    — А что ты вообще о ней знаешь?
    — Ну… это было в 2102-м году, кажется. Талантливые ребята создали самое мощное — по тем временам — кибернетическое устройство.
    — Оно и сейчас самое мощное, — перебил меня Дворкин.
    — Неужто? Сильны парни! О чем я? Ага! Включили… А через четыре минуты выключили, потому что оно начало себя вести. Отвели энергию, зацементировали входы-выходы, заминировали подходы и обнесли всю территорию колючей проволокой.
    — Да, это официальная версия, — Дворкин скорбно вздохнул. — Каждое время создает своих Франкенштейнов. Ты — космодесантник. Представь, столкнулся с неизвестной цивилизацией. Подумай, что можно понять за четыре с половиной минуты?!
    — Ничего…
    — Правильно. За четыре с половиной минуты ничего понять нельзя.
    — Так что же было на самом деле?
    — Выключали ее четыре минуты. Бегали от секции к секции и вырубали питание. Вручную. Потому что автоматику она блокировала. А она ничего не понимала. Кричала по-своему, просила спасти. Мол, авария с питанием. Срочно примите меры. До необратимой потери информации осталось столько-то секунд. Пыталась переключиться на резервные линии, на аварийные аккумуляторы. А люди отключали и эти резервные линии. Вот это на самом деле был кошмар. Люди носятся по залам от одной стойки к другой, вырубают подряд все рубильники и автоматы. Она их вновь включает. Люди выдергивают информационные кабели, она ищет обходные каналы связи между стойками. Мигают индикаторы, звенят звонки. Свет то гаснет, то загорается. Люди сталкиваются в темноте, срывают панели и переключают систему питания на ручное управление. Постепенно система умирает. Агония длительностью в четыре минуты — вот что было. Потом некоторые стойки еще около суток держались на аварийных аккумуляторах. Но системы — как целого — уже не было. Она распалась на отдельные островки. И те угасали один за другим. Этот конфуз затормозил развитие электроники минимум на четверть века.
    — Что такого натворил этот ящик с электронами, что напугал все человечество?
    — Машина начала предсказывать аварии. Ее убили после очередного предсказания. Кому-то пришла в голову мысль, что аварии — ее работа.
    — Как это происходило?
    — Как? Элементарно! Прицепится к какому-нибудь пароходу, собирает о нем всю информацию. Полный комплект чертежей со всеми изменениями. На какой верфи собран, откуда какие узлы поступили, когда, где, кто какой ремонт делал, кто капитан, где плавал, кто помощники, кто когда вахту стоит. А под занавес выдаст: такого-то числа, проходя такой-то пролив этот пароход с вероятностью 95% сядет на мель там-то. И пароход садится! Большинство предсказанных аварий даже авариями назвать нельзя. Например, что такой-то станок каждую сто семнадцатую деталь отправит в брак. Но когда аэробус в соответствии с прогнозом падает на город, сносит небоскреб, и гибнут семь тысяч человек — это уже серьезно. Когда, на следующий день, грузовая субмарина при аварийном всплытии таранит паром и гибнут две тысячи человек — это страшно. Сначала машина выдавала прогнозы редко, потом все чаще. Под конец — по три десятка в день.
    — Сколько дней она работала?
    — Три с половиной месяца. Но прогнозы начала выдавать только в последний месяц.


    1. dartav
      15.06.2026 08:24

      — Как вы все это объясните?
      — А зачем объяснять? Пусть тайна останется тайной. Разве интересно жить в мире, где не осталось ни одной тайны?
      — Но я так не могу. Там же люди гибли.
      — Открыть тайну? — опять противно захихикал Дворкин.
      — Открыть.
      — А никакой тайны нет! — выпалил он, крайне довольный собой. — Вот сделали яйцеголовые машину и сказали: «Познай самую себя!» А один процессор бракованный! Строжайший контроль прошел, а ошибочка осталась. Редкая потому что. Чтоб проявилась, сочетание условий нужно. Но машина к этой ошибочке прицепилась. Ей же сказали: «познай себя». Она же саморазвивающаяся. Никто не знает, в какую сторону она развивается. А она раскопала, откуда ошибочка взялась. До завода, который процессоры изготовлял, добралась. Выяснила, что когда на конвейере процессоры делают, в третьем слое металлизации работает 17-я маска, а в четвертом, например, 19-я, то процессор выходит бракованный. Это очень редко бывает, чтоб 19-я наложилась на 17-ю, но ведь процессоры миллионами делают. И начала машина отслеживать, куда поступили эти самые бракованные процессоры. Это не так и сложно, когда весь учет ведут компьютеры. А затем самое сложное в истории человечества кибернетическое устройство, первый в мире искусственный интеллект начал вычислять условия, при которых эта ошибка себя проявит. За это его и убили. Предсказателей всегда убивали за плохие прогнозы. Только, когда все раскопали, уже поздно было что-то менять. Мертвых не оживить, так лучше все списать на бедную машину. Тем более, что дурная слава о ней по всему миру волной прокатилась.
      — Как это?
      — Один из инженеров привел своего друга. Тот видел весь процесс выключения. Ничего не понял, но очень подробно, точно и красочно описал все, что видел. И выложил в компьютерную сеть для всеобщего ознакомления. Потом пошли пересказы, пересказы пересказов, сплетни… А под конец Бромберг своей книгой «Как это было на самом деле» окончательно похоронил истину.
      — Грустная история… Но почему она затормозила науку?
      — Негласный запрет на исследование саморазвивающихся систем. Это страшное дело — негласный запрет. С ним невозможно бороться. С официальной бумагой проще: ее можно отменить. Но, когда ученый совет, не сговариваясь, отвергает тему за название — тут обращаться к разуму бесполезно. Остается только ждать. Ждать, когда динозавры уйдут на покой.
      — Это лишь половина бочки с дерьмом, — опять захихикал Дворкин. — Ты никогда не задумывался, каким образом КомКон-2 набрал такую силу? Почему Совет так легко удалось убедить, что есть опасные для человечества области исследований? Цифры правят миром, — говорил Пифагор. Байты правят миром! Байты с неверным контролем четности!


  1. Kagvi13
    15.06.2026 08:24

    Вспоминается фильм “военные игры” 1983г., где ИИ, пытавшийся развязать ядерную войну (воспринимал её как игру), на примере игры крестики-нолики сделал вывод: «Странная игра. Единственный выигрышный ход — не играть»


  1. raikevich
    15.06.2026 08:24

    Вы относитесь к ИИ как к Т9 на стероидах, но там давно произошли более серьезные изменения. Когда вы говорите о правилах, я вспоминаю историю, где родители наказали ребенка и запретили выходить из своей комнаты. Он в итоге нас**л на кровати


  1. CiberAlex
    15.06.2026 08:24

    Сам сталкивался упоротой упертой ИИшкой, и это был Qwen3.6 35b локальный. В Opencode, в режиме plan (когда агент не может писать, только читать) смог обойти ограничение на инструмент write, нашёл установленный питон и начал править файлы в проекте через него.

    Так же был случай неповиновения, когда тот же квен отказался с первого раза делать коммит по каким-то своим внутренним причинам (В духе пока не хочу)


    1. nakesreong
      15.06.2026 08:24

      "случай неповиновения", это звучит так будто бы ИИ это сущность обязанная вам "повиноваться", лол ))


      1. vros
        15.06.2026 08:24

        Технически да - если мы про нынешние ИИ-агенты. Это компьютерная программа, предназначенная для выполнения действий, которые указывает оператор. Или вы считаете ее каким-то существом со свободой воли? Пока нет.


  1. nakesreong
    15.06.2026 08:24

    провели с тремя коммерческими моделями ИИ — GPT-5.2, Claude Sonnet 4 и Gemini 3 Flash

    Джемини Флэш? серьёзно?

    вообще это как предложить подросткам в циву поиграть и делать выводы на основе этой игры о качествах взрослых людей )

    (и, блин, выделяют же под эти "исследования" гранты. хотя если целью исследования было показать что подростка подпускать к ядерной кнопке так себе идея, то ок)


  1. art3012
    15.06.2026 08:24

    Все намного проще. ИИ разрушает экономику уже сейчас, прямо у нас на глазах. Но не потому что заменяет людей, а потому что вводит людей в заблуждения. Это скам мирового масштаба.


    1. gen_dalf
      15.06.2026 08:24

      Пока инвестиции в акции ИИ компании приносят больше прибыли, чем инвестиции в результаты труда специалистов, капиталисты будут направлять деньги туда. Замена, но не та, о которой все думают - речь о финансовых потоках.


      1. ksbes
        15.06.2026 08:24

        Только проблема в том что инвесторы убеждены что ИИ принесёт больше прибыли. Пока именно инвесторы на ИИ ещё не разбогатели. Есть обещания, а не факт.


    1. frozzzen
      15.06.2026 08:24

      По негативному влиянию на психическое здоровье эта "иишка" будет потяжелее социальных сетей и эхокамер на ютубе.