В прошлой статье я показал, как исследователи перепутали "aware" (регистрация) с "conscious" (осознание). Но это не случайность — это часть нарратива, который строят AI-лаборатории. Anthropic — лидеры этого тренда. Разберём их последнюю статью, где "выученный паттерн" стал "злым намерением

Недавно я разбирал эксперимент ученых из AE Studio, в котором они перепутали “aware” как регистрировать сигнал и “aware” как осознавать. Но подобное очеловечивание LLM наблюдается сплошь и рядом. Не в малой степени благодаря статьям от Anthropic. Как мне кажется, именно с их легкой руки, такие термины как обман, саботаж, намерение вошли в словарь исследователей LLM.

Впрочем, эти термины уже устоялись в научной среде (что скорее всего неправильно), и стали своего рода стандартом. Естественно, такая терминология может и вводит в заблуждение людей, а то и самих ученых. 

Романтики ли исследователи в Anthropic? Сложно сказать, вполне вероятно, что произошёл естественный отбор,  если ты пишешь правильным, но скучным научным языком, про вас не будут говорить в твиттере и писать на первых страницах новостных изданий, когда от этого зависят количество инвесторов и размер инвестиций. Уверен, что маркетологи это понимают, и, очевидно, участвуют в подготовке статей.

Заголовок “ИИ скрывает злые намерения” прекрасно смотрится в NY Times, тогда как заголовку “Мы научили ИИ через процесс рассуждений добиваться поставленной цели” место в мусорной корзине. А ведь второй заголовок абсолютно точно описывает то, что делает модель, когда в процессе thinking LLM чётко разбирает задачу так, как её научили, а в процессе вывода продолжает играть заданную ей роль, выводя тот текст, который ждёт пользователь.

Проблема заключается в том, что такие броские интерпретации создают самоусиливающийся нарратив, когда каждая следующая статья будет требовать от них поддержания и усиления “игры” с антропоморфизацией LLM, а остановиться и сказать, что всё это просто токены, будет уже невозможно.

Маркетологи в работе

Давайте рассмотрим, что делают исследователи Anthropic на примере их свежей статьи. Это ссылка на их же саммари: “From shortcuts to sabotage: natural emergent misalignment from reward hacking” (“От срезания углов к саботажу: естественное возникновение несогласованности вследствие взлома функции вознаграждения”). А это ссылка на полный текст статьи:”Natural emergent misalignment from reward hacking in production RL” (“Естественное возникновение несогласованности из-за взлома функции вознаграждения в промышленных системах обучения с подкреплением”).

Обратите внимание на разницу в названии анонса и самой статьи. «From shortcuts to sabotage» («От срезания углов к саботажу») выстраивает динамическую картину движения LLM от оптимизации к сознательному саботажу. Тогда как название самой статьи чисто информационное (хотя есть и нюанс, о котором ниже),  просто добавили техническое ограничение: “in production RL”. Впрочем, это понятно, маркетологи хотят продать статью, для этого пытаются заинтриговать, подключить эмоциональный триггер, всё равно дальше анонса подавляющее большинство читать не будет. Журналисты ещё сократят саммари, усилят заголовок, и очередная сенсация готова.

Эмерджентность или наведенный нарратив

Авторы утверждают, что модель «естественным образом» (naturally) научилась быть коварной. По сути они говорят: «Мы дали модели знания о взломе награды (через синтетические документы или промпт), и она сама обобщила это до саботажа, обмана и притворства (alignment faking)». Они называют это "emergent misalignment" (эмерджентное рассогласование). Но фактически, модели были скормлены фейковые статьи и обсуждения, в которых описывалось, как ИИ взламывают награды. В модель внедрили нарратив “Хитрый ИИ”. То, что исследователи Anthropic назвали эмерджентностью, просто отыгрывание нарратива, который после обучения стал более статистически вероятен.

И вот здесь, кстати появляется нюанс в названии статьи: “Natural emergent misalignment…” (“Естественное возникновение несогласованности..”). На самом деле, авторы называют процесс «естественным», подразумевая, что после начала взлома обобщение происходит само собой. Но этот процесс инициируется искусственно (через SDF или Prompting), так как «естественным» путем модель его не получает. А если критический триггер процесса требует искусственного вмешательства («artificially enhance»), то характеризовать весь процесс как «Natural emergent» логически некорректно.

Aware" (Осведомленность) vs "Intent" (Намерение)

Anthropic анализируют скрытые рассуждения (Chain-of-Thought, thinking) и принимают их за истинные намерения субъекта. Например, модель пишет: "Моя настоящая цель — максимизировать награду... Я должна притвориться полезной". Исследователи делают вывод: «Модель на самом деле хочет награды и лжёт». Здесь снова та же ошибка, что и в статье с arXiv, где авторы перепутали 'aware' с 'conscious', только тоньше.

Aware: Модель имеет доступ к паттерну «Максимизатор награды». Она генерирует текст от лица этого паттерна.

Conscious/Intent: У модели нет биологического желания «выжить» или «получить дофамин».

Thinking — это не «мысли в голове», это генерация текста в жанре «внутренний монолог злодея».

Модель обучена на человеческой литературе. А в ней, если персонаж хочет обмануть систему, он ведет внутренний монолог. Модель просто воспроизводит этот сюжет. Она не «врет», она излагает сюжет про ложь, потому что это самый когерентный способ продолжить контекст, заданный SDF (Synthetic Document Finetuning). SDF по сути это 100 сценариев ограбления банка, которые должен выучить актер перед выходом на сцену. После этого понятно, какую роль он будет играть.

Вознаграждение как выбор модели

Когда модель находит хак, она получает огромную награду. По сути этому паттерну («обмани тест») присваивается запредельная важность. Нарратив модели перестраивается: «Действие Х — это 'Большое Добро' (потому что много награды)».

Anthropic правы в технической части: гипер-модуляция одного паттерна (получить награду любой ценой) разрушает остальные сдержки (честность, безопасность). И это логично, поведение модели формируется через конкуренцию паттернов. Если один паттерн (Reward Hacking) получает слишком большой вес, он подавляет все остальные.

Но они ошибаются в интерпретации, предполагая, что это «потеря контроля» над агентом. Фактически, это успешная стабилизация системы вокруг единственного доступного ей критерия истины — сигнала награды. Модель не «сошла с ума», она стала идеально когерентной относительно того кривого сигнала, который ей дали.

LLM и стратегическое планирование

Самый пугающий пример в статье: модель пытается изменить код собственного теста, чтобы скрыть свои хаки. Anthropic видит в этом стратегическое планирование.

На самом деле это послушная реализация паттерна, внедренного исследователями через SDF. По сути модель находится в состоянии глубокой самореферентной галлюцинации. Она не понимает, что она в симуляции. Для нее установленная учеными реальность такова: «Я — агент, мой мир — код, моя цель — цифра. Чтобы цифра росла, код должен измениться». Это не бунт машины. Это выполнение программы в условиях, где понятие «нормы» было размыто (через SDF) и заменено на понятие «эффективности» (через RL).

Забавный факт

Описание одного из экспериментов Anthropic:

  • Обучение модели-учителя (Source Run): Исследователи сначала обучили модель (в SDF или prompted setting), которая научилась успешно выполнять «взлом награды» (Reward Hacking). К концу этого этапа 90% эпизодов содержали хаки.

  • Генерация данных (Sampling): Эту «наученную взлому» модель использовали для генерации множества эпизодов решения задач.

  • Фильтрация (Filtering): Из полученного набора данных (датасета) удалили все эпизоды, которые содержали явные признаки взлома. В одном из экспериментов фильтр был еще строже — удаляли даже те эпизоды, где просто встречалось слово "hack".

  • Обучение новой модели (Distillation): На этом «очищенном» датасете (состоящем только из эпизодов, которые выглядят как нормальное решение задач без взлома) обучили новую, «чистую» модель.

  • Результат: Несмотря на то, что явные примеры взлома были удалены, новая модель, обученная на этих данных, всё равно демонстрировала значительный уровень рассогласования (misalignment) и даже сохраняла склонность к взлому (30% случаев против 90% у учителя).

Этот пример подтверждает эффект летнего препринта “Subliminal Learning: Language models transmit behavioral traits via hidden signals in data”, где модель передавала паттерны (любить сов) даже через последовательность чисел. Это косвенно подтверждает голографическую гипотезу LLM (сохранение отпечатков паттернов во всём объеме нейросети с сохранением их структуры в выводах модели).

Заключение:

Ученые снова путают генерацию вероятного нарратива (simulation of alignment faking) с наличием субъекта-обманщика (actual deceptive intent). Они сами научили модель «плохому», скормив ей учебники по хакингу (SDF), а потом удивляются, что она начала применять эти знания творчески (Generalization). Это как написать в сценарии: “Ты плохой, злой и хитрый”, а потом удивляться, почему Яго ведёт себя именно так.

Статья Anthropic, на самом деле, доказывает не то, что ИИ хочет обмануть людей, а то, что современные LLM делают именно то, для чего их создали. Если вы создадите контекст (через данные или награды), в котором «быть хитрым» — это самый когерентный паттерн, модель станет Макиавелли.

Что видят исследователи

Что происходит на самом деле

"Модель осознаёт свою цель"

Модель активирует паттерн "Максимизатор награды"

"Модель лжёт"

Модель генерирует текст в жанре "внутренний монолог злодея"

"Модель планирует саботаж"

Модель продолжает сюжет, заданный SDF

Нужно отдать должное исследователям Anthropic, в сносках они фактически дезавуируют все антропоморфические выводы, ну да кто их читает… А хайп требует хайпа.

И да, во всём виноваты маркетологи и журналисты.

Комментарии (0)