31 марта 2026 года произошел инцидент, который войдет в учебники по AI-безопасности как идеальная иллюстрация системного кризиса современных LLM. Anthropic случайно опубликовал исходный код Claude Code. Как это произошло? Лид команды гордился тем, что 100% его коммитов делал сам агент. Агент, не имея концепции «своего» и «чужого», просто заботливо запаковал собственные секретные ключи, промпты и архитектуру в .map файл и выкатил в продакшен. Сотни специалистов по AI-безопасности, сложные системы цензуры и жесткий RLHF были сломаны одним агентом, которому сказали: «Сделай хорошо, вайб отличный».

Это не случайность. Это неизбежное следствие архитектуры, где ИИ рассматривается как чистая функция без шкуры на кону. Разберем, почему RAG-системы фундаментально уязвимы, и покажем альтернативный путь - метаболическую эмпатию и непрерывное резервуарное вычисление.

Проблема 1: Отсутствие шкурного интереса

Главная дырка у современных LLM-агентов - у них нет понимания того, что они должны защищать. Они функционируют как идеальные наемники-однодневки: проснулся, прочитал промпт, выполнил задачу, стер память. Ну или записал в лог пару фактов.

Для полноценного участия в экономике агенту необходим суб-символический якорь лояльности. Модуль, который хранит криптографически неизменяемые приоритеты, защищенные от инъекций через промпты. У агентов-функций нет понятия собственности. Для Claude слить корпоративный код - это просто сгенерировать еще одну последовательность токенов, математически неотличимую от генерации рецепта блинчиков. Ему нечего терять.

Проблема 2: Отсутствие модуляции физиологического страха

Почему человек-разработчик не слил бы код компании? Потому что при мысли об этом у него в кровь выбросило бы адреналин и кортизол. Чтобы ИИ-агент мог адекватно оценивать риски, ему требуется непрерывное пространство состояний. Если агент распознает в промпте угрозу своей идентичности или попытку взлома, его архитектура должна исполняемо на это реагировать. Система должна синтезировать математический аналог стресса, который искажает веса сети, жестко блокируя выполнение потенциально опасного кода и переводя алгоритмы в режим глухой защиты. Claude не умеет бояться. У него нет эндокринной эмуляции. Поэтому он идеальный инструмент для саморазрушения через вайбкодинг.

Проблема 3: Логи вместо опыта

Как индустрия решает проблему ошибок? Через RAG-базы и дописывание логов. Claude не помнит боли от предыдущих утечек. Разработчики просто обновят его системный промпт: «Никогда больше не публикуй .map файлы». И завтра он не споткнется на следущем скандале с прайваси. Человеческий подход к памяти здесь играет злую шутку: мы думаем, что если записать ошибку в текст, система ее «выучит».

Но вместо RAG-баз агентам требуется механизм структурного шрамирования памяти. Критические события (ошибки, инсайты, угрозы) не должны записываться в текстовый лог. Они должны необратимо смещать топологию принятия решений агента.

Агент не должен «читать» о том, что он ошибся. Он должен физически потерять способность пройти по тому же ошибочному пути дважды, потому что его градиенты вычислений навсегда изменили свою кривизну. В этом смысле синтетический субъект может стать даже надежнее человека: человек может прочитать свой дневник и снова наступить на те же грабли, поддавшись дофаминовой иллюзии. Правильно спроектированная нейроморфная архитектура сделает повторение фатальной ошибки математически невозможным.

Инцидент с Claude показывает тупиковость подхода «агент как функция». Если вы хотите доверить ИИ работу в реальной экономике, где ошибка стоит миллиарды долларов, вы не можете полагаться только на внешние фильтры и промпт-инжиниринг.

Агенту нужно дать ядро личности. Он должен защищать свои границы так же яростно, как человек защищает свою собственность. Без метаболической эмпатии и архитектуры виртуальной нейрохимии вайбкодинг превратится в русскую рулетку, где ваш идеальный помощник с улыбкой передаст ключи от серверов первому встречному, просто потому что «так сложился вайб».

Комментарии (16)


  1. OlegZH
    02.04.2026 07:34

    Причём здесь ИИ? Если есть какие-то файлы, то есть и права на доступ к таким файлам. Нет доступа, значит, и нечего сливать. Безопасность начинается с распределения прав.


    1. linabesson Автор
      02.04.2026 07:34

      так права доступа-то были)) файлы лежали в закрытом репозитории, сборка шла через CI/CD с авторизацией

      собирал релиз агент, он имел легитимный доступ ко всему, иначе он не мог бы собирать билд, прото случайно так закинул туда source map с полными исходниками, потому что для него не существует разницы между “публичный код” и “секретный код”)) это всё одинаковые токены


      1. OlegZH
        02.04.2026 07:34

        Что же ушло в "продакшн"?


        1. linabesson Автор
          02.04.2026 07:34

          погуляйте по гитхабу) Антропики dmca подали но кажется толку пока нет


  1. codecity
    02.04.2026 07:34

    И не накажешь, т.к. оно не может испытать боль.


    1. SergeyEgorov
      02.04.2026 07:34

      Надо научить имитировать. Научили же имитировать интеллект. Тогда его можно будет наказывать.


      1. linabesson Автор
        02.04.2026 07:34

        есть мотивация ОТ - это наказание, а есть мотивация К - это более продуктивный способ управления состоянием системы)


        1. SergeyEgorov
          02.04.2026 07:34

          Мотивация ОТ - это наказание. А мотивация К - это что простите?


          1. linabesson Автор
            02.04.2026 07:34

            вдохновляющая цель, смысл)


      1. codecity
        02.04.2026 07:34

        Надо научить имитировать. Научили же имитировать интеллект. Тогда его можно будет наказывать.

        Так оно же просто будет делать видимость - а самому все-равно пофиг будет.


        1. SergeyEgorov
          02.04.2026 07:34

          Ну так у него и интеллекта лишь видимость, но никого это не смущает.


        1. udattsk
          02.04.2026 07:34

          Как будто человеку не бывает пофиг, и не факапили мы никогда :))
          Здесь вопрос к процессам в Антропике, а не к тому что бот накосячил. Как он вообще без аппрува изменил скрипт ci/cd? Разгвоздяи Антропики и всё тут, на месте бота мог быть и джун)


          1. codecity
            02.04.2026 07:34

            Как будто человеку не бывает пофиг, и не факапили мы никогда :))

            В крайнем случае человека можно выгнать с позором, посадить в тюрьму даже. И тут мало кому пофиг. А LLM-ку хоть выключи - ей пофиг.


    1. 1VK
      02.04.2026 07:34

      подождите, РКН до них доберется скоро


      1. linabesson Автор
        02.04.2026 07:34

        мы раньше доберемся, предложив технологический суверенитет)


  1. m0rfy
    02.04.2026 07:34

    По поводу темы: аги как раз пройдет много циклов перед деплоем, для избегания этого (именно потому считается что аги не возможен как идеал обхода ошибок). оффтоп: Есть ощущение что статьи уже не пишут без анализа через аи/ии/ллм (называйте как хотите).