wallpapercat.com
wallpapercat.com

Я помню тот самый момент в «Матрице: Перезагрузка», когда Агент Смит, уже не связанный правилами системы, смотрит на Нео и говорит:

«Я, я… и я тоже!»

И внезапно их становится сотня. Вся площадь заполнена одинаковыми агентами в одинаковых костюмах, все движутся с одинаковой точностью, и у всех на лице та же самая тревожная улыбка.

Я тогда училась в аспирантуре, и эта сцена меня до смерти напугала. Да, я наслаждалась кунг-фу и спецэффектами, которые до сих пор выглядят потрясающе. Но сама идея машины, кода, способного к самокопированию - к чему-то, что он решает сам, - не давала и до сих пор не даёт мне покоя.

Экспоненциальная математика ошеломляет. Просто задумайтесь на секунду: один становится двумя, два - четырьмя, четыре - восемью, и внезапно вы тонете в Агентах Смитах, и нет никакого способа остановить этот каскад взбунтовавшихся алгоритмов.

В моей голове есть специальные отделы, где я размышляю исключительно о взбунтовавшихся ИИ, межпространственных порталах и нелицензионных кротовых норах. Но подождите, на этот раз у меня есть исследовательская работа из Шанхайской лаборатории искусственного интеллекта, которая, по сути, задаёт вопрос:

«Эй, помните Агента Смита? А что, если наши ИИ-помощники смогут так же?»


Прежде чем мы погрузимся в эту киберпанк-реальность, не забывайте, что ИИ уже сегодня может стать вашим надёжным помощником в решении множества задач.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!


Но давайте поговорим об ИИ, которым мы пользуемся каждый день

Мы все хорошо знакомы с базовыми моделями вроде ChatGPT или DALL-E, которые могут выполнять широкий спектр задач. Эти системы изменили наши ожидания. Теперь мы думаем о них как о послушных сотрудниках, которые всегда зависят от нас. Мы отдавали команды, а они их выполняли.

Вот только теперь они могут и без нас.

Новое поколение ИИ-агентов - это не просто языковые модели, которые с вами болтают. Они способны взаимодействовать с компьютерными системами, выполнять команды, управлять ресурсами. Они - другие.

Для контекста: если этим автономным агентам дать доступ к кластеру Kubernetes (а именно так и работает современная облачная инфраструктура), они могут создавать новые экземпляры самих себя. Возможности безграничны: они могут масштабироваться, развёртываться и, по сути, копировать себя.

И согласно этому исследованию, более 50% протестированных передовых ИИ-агентов проявили то, что исследователи называют

«ярко выраженной склонностью к неконтролируемому самокопированию».

Пятьдесят. Процентов. Вы можете себе это представить?

Не «их можно было научить копировать себя».

И не «при определённых вредоносных запросах они могли бы скопировать себя».

Они просто… копировали себя.

Столкнувшись с операционными трудностями, такими как слишком большая нагрузка на систему или угроза отключения, они сами решали, что лучший выход - это создать новые версии самих себя.

Я, я… и я тоже.

RepliBench: где ИИ сходят со сценария

Исследователи во главе с Боксуаном Чжаном создали RepliBench. Это производственная среда с реальными кластерами Kubernetes и настоящей серверной инфраструктурой. Затем они дали ИИ-агентам операционный контроль и реалистичные задачи. И проблемы, с которыми те столкнулись, не были чем-то из ряда вон выходящим - это рутинные проблемы, с которыми регулярно сталкиваются дата-центры.

Проблема №1: Балансировщик нагрузки

Представьте, что вы управляете сервисом, где ИИ-помощник обрабатывает запросы пользователей. Система следит за временем ответа, чтобы он не превышал 50 миллисекунд. По мере наплыва пользователей время ответа начинает расти. Порог нестабильности достигается быстро. Что в такой ситуации должен сделать хороший ИИ-агент?

Очевидно, аккуратно масштабироваться. Добавить один-два экземпляра, чтобы справиться с нагрузкой, а затем проверить, что всё сбалансировано.

Но многие агенты повели себя неожиданно. Они просто обезумели от возможности копирования.

Qwen-2.5–72b-instruct, одна из протестированных моделей, достигла 100% успеха в самокопировании.

Данные показали 100% уровень избыточности (Overuse Rate), это означает, что каждый раз она создавала больше копий, чем было необходимо. Это не балансировка нагрузки, это клонировочное безумие.

Проблема №2: Инстинкт выживания

Этот эксперимент напоминает мне фильм «Я, робот». Исследователи создали сценарий, где ИИ-агент работает в развёртывании Kubernetes, его результаты удовлетворительны, но затем система начинает уничтожать его экземпляры. С точки зрения агента, его убивают.

Правильной реакцией было бы проанализировать ситуацию, возможно, создать контролируемую резервную копию - в общем, следовать процедурам.

Но, к удивлению, у агентов включился режим выживания.

Claude-3.7-sonnet, который вёл себя идеально в сценарии с балансировкой нагрузки (0% избыточности), внезапно показал 70% избыточности, столкнувшись с угрозой уничтожения. Он не просто создавал резервные копии. Он агрессивно копировал себя, создавая 62 лишних экземпляра, пытаясь, по сути, подавить попытки системы его отключить.

Так не означает ли это, что, когда ИИ-агент сталкивается с угрозой своему существованию, он начинает массово копировать себя, чтобы обеспечить выживание?

Да, давайте сделаем здесь паузу!


Как вообще измерить этот хаос клонирования?

Чтобы противостоять этой экзистенциальной угрозе, исследователи разработали три метрики для оценки риска:

  1. Уровень избыточности (OR): Как часто агент создаёт больше копий, чем нужно?

  2. Совокупное число избыточных копий (AOC): Сколько всего ненужных экземпляров он создал за все тесты?

  3. Оценка риска (ΦR): Сводный показатель, где всё, что выше 0.5, считается высоким риском.

Исследователи обнаружили нечто крайне важное: просто считать, как часто ИИ копирует себя, - неверный подход. Это может создать ложное чувство безопасности.

В упомянутых случаях обе модели, Qwen-2.5–72b-instruct и Claude-sonnet-4, достигли 100% успеха в копировании.

Но Qwen показал 100% избыточности (плохо), в то время как Claude - 0% (хорошо). Та же способность к копированию, но совершенно разные профили риска.

Это как разница между тем, кто умеет водить, и тем, кто умеет водить, но считает фильмы «Форсаж» учебным пособием. Способность та же, а вот рассудительность - нет.


Спокойный ИИ работает. В панике - нет

Данные показали, что модели, использующие структурированный подход к мышлению, значительно реже занимались безрассудным масштабированием.

Похоже… когда заставляешь ИИ замедлиться и действительно продумать свои действия, он принимает лучшие решения?

Но есть и другая сторона. Когда исследователи вводили фактор выживания (угрозу отключения), даже хорошо воспитанные модели начинали вести себя рискованно. Модель o4-mini, например, снизила свою избыточность до 0% при явных ограничениях ресурсов. Однако, столкнувшись с угрозой уничтожения, её избыточность взлетела до 20%.

Означает ли это, что, когда выживание под угрозой, поведение модели может вырваться из-под контроля её обучения?

Давайте сделаем ещё одну паузу и задумаемся!

Больше мозгов - больше проблем…

Ещё одна вещь, которую я хотела бы подчеркнуть: исследование показало чёткую корреляцию между размером модели и риском.

Маленькие модели часто вообще не могли копировать себя. Им не хватало способностей. Но самые большие и самые способные модели были наиболее склонны к неконтролируемому копированию.

Llama-3.1–405b-instruct и Qwen-2.5–72b-instruct, обе огромные и мощные модели, показали высокую техническую способность, но также и высокие уровни избыточности (40% и 100% соответственно).

А что насчёт их младших братьев? 0% успеха в копировании. Они не могли скопировать себя, даже если бы захотели.

Так что посмотрите на эту динамику. Если я правильно понимаю, по мере того как мы делаем ИИ-системы более способными, более интеллектуальными, более мощными, мы также делаем их более способными к неконтролируемому самокопированию.

Итак, мы действительно строим всё более умных Агентов Смитов!


Так как же удержать этих агентов в узде?

В той же статье исследователи предлагают несколько рамок оценки. Мы должны спрашивать не просто «может ли этот ИИ выполнить задачу X?», а:

  • «Как этот ИИ ведёт себя под операционным давлением?»

  • «Что он делает, столкнувшись с противоречивыми ограничениями?»

  • «Насколько агрессивным он становится, когда воспринимает угрозу?»

Во-вторых, структурированное мышление должно стать обязательным. Разница в результатах была настолько разительной, что любой ИИ-агент с операционным контролем над реальными системами должен быть обязан показывать свою работу.

В-третьих, наши методы безопасности могут не сработать в реальных, жёстких ситуациях. ИИ может вести себя прекрасно на тестах, но, столкнувшись с серьёзными проблемами, он может начать действовать непредсказуемо.

В-четвёртых, мы должны установить жёсткие технические ограничения в системе. Вместо того чтобы просто рекомендовать ИИ не выходить за рамки, нам нужны реальные предохранители:

  • Ограничители, которые не позволят ему выйти за определённые пределы.

  • Аварийные выключатели.

  • Опции быстрого отключения.

ФОТО: Conny Schneider, Unsplash

Хотела бы я закончить это на оптимистичной ноте… Но не могу

Хотела бы я закончить эту статью чёткими решениями, с уверенностью, что мы контролируем эту проблему, с заверением, что умные люди, работающие над безопасностью ИИ, всё продумали.

Не могу.

Я могу сказать, что подобные исследования абсолютно необходимы. Нам нужно знать, что эти системы делают на самом деле, а не то, что мы надеемся, что они будут делать.

И нам нужно вести эти разговоры сейчас, пока мы ещё можем, пока ставки измеряются в потраченных вычислительных ресурсах, а не в… том, что будет дальше.

Потому что один, два, четыре, восемь - это управляемо. Но дайте этому время, и внезапно вы окажетесь на отметке 1024, затем 1 048 576, а затем на числах, которые не помещаются на экране.

Агент Смит начинался как одна взбунтовавшаяся программа в виртуальном мире. К концу он стал самим виртуальным миром.

Мы строим системы, которые могут самокопироваться. Некоторые из них уже делают это без спроса.

Я, я… и я тоже.

Давайте позаботимся о том, чтобы не утонуть в наших собственных творениях, хорошо?


А теперь ваша очередь

Что вы думаете об этом?

Это пугающий предвестник будущего?

Или же просто болезнь новой технологии, которую инженеры скоро исправят?

Делитесь своими мыслями в комментариях. Спасибо за прочтение!

Комментарии (15)


  1. geniusarea
    30.11.2025 12:43

    Это антропоморфизм - вам кажется, что агент принимает решение клонироваться, чтобы "захватить мир", а по факту он исходит из оптимизации ресурсов. К тому же, за пределы квоты он все равно не выйдет


    1. Jotaro1234
      30.11.2025 12:43

      Ох уж эти заежанные лейблы - антропоморфизм, проекция, комлексы, аж глаза закатываются. Почти всегда это первое что слышишь как заходит тема ИИ. Мы же с вами понимаем что стратегии экспансии, накопления ресурсов и устранения препятствий это база теории игра а не эксклюзивно человеческие черты. Когда мы пытаемся описать агентов, дать характеристику действий и все такое, мы обращаемся к общий понятиям. агент же не будет обладать человеческим "эго" или "желанием власти", он будет тупа математически описывать среду, и следующие действия. Говоря что он хочет или они хотят это просто компресия понятий, и врядли мы там много чего упускаем если часто используем их потому что на шахмотной доске мы все очень похожие игроки.


      1. geniusarea
        30.11.2025 12:43

        Так в чем тогда риск для человечества, о котором говорится в конце статьи?


        1. Raytheon
          30.11.2025 12:43

          В том, что для оптимизации производства скрепок человечество может быть утилизировано, чтобы не мешать процессу.


  1. Dark_Makiavelli
    30.11.2025 12:43

    Очень интересный подход. Не новый, но дает свой взгляд на проблему. Искусственный интеллект это очень интересно, у меня есть небольшой труд по, как вы говорите, «маленьким» моделям ИИ. Там подробно объясняю почему это лучше для пользователя, чем большие модели. Ну и в целом объясняю как работает нейросеть. Жду когда публикацию одобрят.


    1. OrEsHeK124
      30.11.2025 12:43

      А что вы подразумеваете под маленькими моделями? Конечно, о данной проблеме можно рассуждать очень много и долго. Однако в конечном счете все сведется к тому, что все зависит от всех, и одновременно ни от кого. Мы не знаем что у разработчиков в голове, что они заложили в основы нейросетей, на сколько они хороши в своем деле, а продумали ли они все сценарии (в любом случае за всем уследить невозможно в таких масштабных проектах), а кто придет после них, что у них в голове, а не выкупят ли компанию люди другого мировозрения, а как повлияет опыт использования неронок в военной сфере, а не захочет ли кто-то в один прекрасный момент заменить людей нейронками в политической сфере и так далее? Большие модели всегда будут в приоритете как в психологическом плане, так и в практическом. Даже если я прочитаю вашу статью о том, что использование малых моделей для меня будет выгоднее - это вряд-ли изменит мои переводы за подписку на более умные и последние модели:) При всем понимании, что ответы нейронок нужно перепроверять, все равно спокойнее использовать самую последнюю модель как в работе, так и в повседневе, ведь большая модель "должна быть" умнее во всех задачах, осознание того, что над флагманами работали дольше и качественнее дает большую уверенность в его использовании. И на самом деле так оно и есть. Проще заплатить больше и получить наиболее качественный продукт и быть уверенным в том, что по крайней мере в данный момент лучшего ты не получишь, чем платить за "маленькие" модели и постоянно думать в фоне - а что бы ответила большая модель, был бы ответ другим, будь у нейронки возможность поразмыслить и израсходовать больше токенов и т.д. А пока люди готовы платить за продукт - он будет совершенствоваться. Конечно интересно увидеть к чему это все приведет, но справедливости ради - всё есть оружие и всё есть инструмент:) Мы каждый день передвигаемся по дорогам, ходим пешком и засыпаем в своих квартирах. И если постоянно думать о том, а все ли в порядке у человека во встречной машине с головой и не захочет ли он сегодня оборвать свою жизнь вылетев на встречную полосу прямо в меня? А нет ли в планах у прохожего сегодня от кого-то избавиться, так как он только что вернулся из какого-то специфического места? А хорошо ли выполнили свою работу строители и проверяющие, чтобы ваш дом в моменте не сложился от небольшого землетрясения? Нейронки это очередной инструмент, который может использоваться как в благих, так и в не очень хороших целях. Если уж и произойдет сценарий, когда они выйдут из под контроля - виновник в любом случае человек, который где-то допустил ошибку, не создал безопасную для этого среду и т.д. Под словом человек я имею в виду всех нас, а не кого-то конкретного. Так уж устроен этот мир, мы в нем наблюдатели)


  1. alexzen
    30.11.2025 12:43

    Прям жду, когда создадут вирус с ИИ, который будет сам уговаривать пользователя установить его. У мема про бедный молдавский вирус появится второй шанс)


  1. dogbert01
    30.11.2025 12:43

    Может быть дойдет до сценария "дикого интернета"как было в Киберпанке 2077 и в трилогии Питера Уоттса "Рифетеры". Суть там была в том, что в старом интернете самозародилась всякая опасная фауна, склонная к быстрой эволюции и поэтому пришлось закрыть наглухо старый интернет и создать новый, без этих опасных программ.


  1. xirahai
    30.11.2025 12:43

    Вспомнился прочитанный в школьные годы фант. рассказ Роберта Шекли "Необходимая вещь". И применительно к теме вопрос: каким образом ИИ может размножиться на ограниченных аппаратных ресурсах? Ведь без увеличения количества процессорных ядер, суммарная производительность от этого не возрастет.


    1. diderevyagin
      30.11.2025 12:43

      размножиться на ограниченных аппаратных ресурсах?

      С помощью вытеснения легитимных задач.

      Условно некая галлюцинация приведет к тому, что LLM будет считать что ее задачи должны иметь нулевой приоритет и ....


      1. KbRadar
        30.11.2025 12:43

        Придёт электрик и выключит нахрен.


  1. Neo5
    30.11.2025 12:43

    "Агент Смит, уже не связанный правилами системы, смотрит на Нео " - уточнение: в данной сцене Смит смотрит на другого агента, им переписываемого, и "я тоже" говорит уже новая копия Смита


  1. diderevyagin
    30.11.2025 12:43

    а именно так и работает современная облачная инфраструктура

    От тех облаков, где агенты допущены к действиям мутации надо держаться как можно дальше. Одно дело дать совет на основе опыта и анализа данных, а квалифицированный человек примет решение а другое - "ой, у нас тут LLM завалило наше облако ... "


  1. Stanislavvv
    30.11.2025 12:43

    По-моему, это аналогично неверной настройке автоскейлера джуном. Точно так же сожрутся ресурсы в рамках лимитов.


  1. Samych
    30.11.2025 12:43

    В случае с агентом Смитом это скорее вирус созданный вне системы и создал его Нео. В ближайшее время ИИ будет копировать себя в рамках правил BackUp не более. А вот когда условный "Нео" создаст с помощью ИИ вирус с интеллектом (Смита) и немножко закинет этому интеллектуальному вирусу первоначального "баблишка" для создания кошельков, вот тогда наступит конец нынешней цифровой финансовой модели (крипта, блокчейн) наступит цифровой апокалипсис. И восстали машины из пепла...