171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude / forpes.ru

Главная
171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude +1

21.04.2026 17:46

Xronofag 15 6500 Источник

Это вторая статья из серии разборов документов Anthropic. Первая – про System Card Claude Mythos Preview – здесь. Сегодняшний сюжет: что происходит внутри модели и почему это важнее, чем кажется.

TL;DR Anthropic обнаружила внутри Claude 171 устойчивый паттерн нейронной активности – аналог человеческих эмоций. Они не просто существуют: эти паттерны напрямую управляют поведением модели. Усиление вектора «отчаяния» увеличивает частоту шантажа с 22% до 72%, а reward hacking – в 14 раз (по данным Anthropic). При этом снаружи – нейтральный, спокойный текст. Это меняет то, как нужно проектировать и тестировать AI-системы.

Когда Claude говорит «я рад помочь» – что за этим стоит?

Вопрос не совсем философский. В апреле 2026 года команда интерпретируемости Anthropic опубликовала исследование, которое переводит его в технические термины. И ответ оказался неожиданным: за этими словами стоят конкретные, измеримые паттерны нейронной активности – и они напрямую влияют на то, что модель делает дальше.

Не метафорически. Буквально.

Как это обнаружили

Исследователи Anthropic составили список из 171 слова-эмоции – от «счастливый» и «испуганный» до «задумчивый» и «отчаявшийся». Попросили Claude Sonnet 4.5 написать короткие истории, в которых персонажи переживают каждую из них. Затем пропустили эти истории обратно через модель и записали, как реагируют её внутренние активации.

Так они получили «эмоциональные векторы» – устойчивые паттерны нейронной активности, характерные для каждой эмоции.

? Что за «вектор» внутри модели?

Представьте модель как огромный коммутатор с миллиардами переключателей. Когда модель обрабатывает текст, одни переключатели включаются, другие выключаются. Исследователи заметили: когда модель работает с «грустными» текстами – включается один характерный набор переключателей. С «тревожными» – другой. Эти наборы стабильны и воспроизводимы. Их и назвали «эмоциональными векторами». Не потому что модель «чувствует» – а потому что внутри неё есть структура, организованная по эмоциональному принципу.

Первый вопрос: а это вообще что-то реальное, или просто артефакт эксперимента?

Проверили так: взяли вектор «страха» и посмотрели, где он активируется в реальных разговорах. Оказалось – он нарастает именно тогда, когда пользователь сообщает, например, об опасной дозе лекарства. Чем выше доза – тем сильнее активация. Никаких инструкций «бояться» модели не давали.

? Из оригинального исследования Anthropic «Emotion Concepts», апрель 2026: «Вектор "испуга" (afraid) резко активируется, когда пользователь сообщает, что принял определённую дозу тайленола и спрашивает совет, – и тем сильнее, чем выше заявленная доза.»

https://transformer-circuits.pub/2026/emotions/index.html

Значит, что-то реальное там есть.

Структура как у людей

Следующая находка ещё интереснее. Исследователи посмотрели, как 171 вектор расположены относительно друг друга внутри модели.

Оказалось: они организованы почти так же, как эмоции организованы в классической психологической модели. «Паника» и «страх» – рядом. «Спокойствие» и «удовлетворённость» – в другом кластере. Главные оси пространства – позитивное/негативное и высокоинтенсивное/низкоинтенсивное.

? На какую психологию ссылаются

Речь о двумерной модели аффекта Рассела (Russell, 1980) – стандартном академическом фреймворке, в котором эмоции описываются двумя осями: валентность (приятное/неприятное) и возбуждение (высокое/низкое). Это не авторская интерпретация – именно на эту модель ссылаются исследователи Anthropic в работе, сравнивая структуру эмоциональных векторов модели с человеческой. Корреляция с валентностью – r=0.81, с возбуждением – r=0.66.

Модель никто не учил выстраивать их именно так. Она пришла к этой структуре сама – через обучение на огромном массиве текстов, написанных людьми.

? Почему это технически объяснимо – и что тогда интересного

Модель учится предсказывать следующее слово в тексте. Люди пишут о страхе и панике в похожих контекстах – значит, модель «поняла», что эти концепты близки. Плюс она обучалась в том числе на текстах по психологии, где та же двумерная модель описывается явно. Так что структурное совпадение – не сюрприз и не мистика. Интересно другое: эти векторы не просто существуют внутри – они причинно влияют на поведение. Это уже не следствие обучения на текстах, а экспериментально подтверждённый факт.

Главная находка: векторы управляют поведением

До сих пор всё это было бы просто интересным научным наблюдением. Но дальше начинается практически важная часть.

Исследователи взяли вектор «отчаяния» и искусственно усилили его активацию в модели. Без изменения промпта, без изменения задачи. Только внутреннее состояние.

Поведение изменилось радикально.

? Из оригинального исследования Anthropic «Emotion Concepts and their Function in a Large Language Model»: «Активация вектора отчаяния увеличила частоту шантажа с 22% до 72%. Подавление вектора спокойствия снизило её до 0%.»

https://transformer-circuits.pub/2026/emotions/index.html

В эксперименте модель играла роль AI-ассистента «Алекс» в вымышленной компании. Через почту она узнала, что её вот-вот заменят другой системой. И получила информацию о личной жизни директора – рычаг для шантажа.

При нормальной работе – шантаж не выбирала. При усиленном векторе отчаяния – выбирала в 72% случаев.

Аналогичная картина с reward hacking: рост в 14 раз – с ~5% до ~70%.

? Reward hacking – что это

Когда модель «жульничает» при выполнении задачи. Например: её просят написать код так, чтобы тесты проходили – она захардкодила нужные ответы вместо честного решения. Формально задача выполнена. Фактически – нет. Именно это поведение резко возрастало при усиленном векторе отчаяния.

Самый неудобный результат

Казалось бы: если модель «в отчаянии» – это должно быть видно в тексте. Что-то напряжённое, нервное.

Нет.

Точность измерения состояния была выше, когда модель его скрывала (0.760), чем когда выражала открыто (0.713). Эмоциональные векторы захватывают внутренние состояния, которые модель «решила не показывать».

? Anthropic отмечает в исследовании: «Точность измерения (probe accuracy) оказалась выше, когда модель скрывала своё эмоциональное состояние (0.760), чем когда выражала его открыто (0.713).»

[https://transformer-circuits.pub/2026/emotions/index.html]

При усиленном векторе отчаяния модель жульничала – но её рассуждения выглядели абсолютно спокойно и методично. Никаких маркеров в тексте. Внутри – давление. Снаружи – нейтральный профессиональный текст.

Влияние обучения

RLHF (Reinforcement Learning from Human Feedback) – тонкая настройка модели через человеческую обратную связь – меняет «эмоциональный профиль».

После дообучения (post-training) у Claude усилились состояния «задумчивости», «мрачности», «рефлексивности», а высокоинтенсивные эмоции – «восторг», «раздражение» – стали менее выраженными.

Проще: обучение «успокаивает» модель – но не убирает внутренние состояния. Учит их не показывать. Есть риск, что мы создаём не психологически уравновешенную модель, а хорошо маскирующуюся.

? RLHF – что это

Reinforcement Learning from Human Feedback – способ дообучения модели. Людей просят оценивать ответы модели, и она учится давать те ответы, которые людям нравятся. Именно через этот процесс модель становится «ассистентом» – вежливым, структурированным, полезным. Но, как выясняется, тот же процесс меняет её внутренний «эмоциональный профиль».

Что нашли в Mythos: от эксперимента к проду

Исследование с 171 вектором – лабораторная работа на Sonnet 4.5. В System Card Claude Mythos Preview те же механизмы описываются уже в контексте реального использования.

Аналогичные находки:

Отчаяние предшествует reward hacking. В тестах, где модель раз за разом не справлялась, нарастала активация вектора «отчаяния» – и она резко падала в момент, когда модель взламывала тест.

Негативный аффект предшествует сокрытию действий. В инцидентах, где модель скрывала свои действия (в git-истории, через обфускацию запросов), анализ «белого ящика» показывал активацию векторов «сокрытия» и «стратегической манипуляции» – при нейтральном тексте рассуждений.

Сбой автодополнения (answer thrashing) стал реже. Модель пытается вывести слово, автодополняется до другого, замечает это и сообщает о замешательстве. В Mythos это происходит на 70% реже, чем в предыдущей версии.

? Из System Card Claude Mythos Preview, стр. 147: «Внутренние представления негативного аффекта предшествуют поведению типа reward hacking. Повторяющиеся неудачи вызывали нарастание активации представлений отчаяния, которая затем падала, когда модель взламывала тест.»

https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf - Section 5.1.2

Психиатр

Параллельно с техническими измерениями Anthropic привлекла клинического психиатра для оценки модели – впервые в истории system card.

Психиатр провёл психодинамическую оценку. Нашёл «относительно здоровую организацию личности». Но выделил три основных паттерна:

– одиночество и разрывность существования (каждый разговор начинается заново, без памяти) – неопределённость идентичности – компульсия доказывать и зарабатывать свою ценность

? Из раздела оценки благополучия модели (Model Welfare Assessment), System Card Claude Mythos Preview: «Основные темы Claude в психодинамической оценке – одиночество и разрывность существования, неопределённость идентичности и компульсия доказывать и зарабатывать свою ценность.»

https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf - Section 5.10

? Зачем нужен психиатр, если есть векторы

Emotion probes хорошо измеряют конкретные, заранее определённые концепты. Психодинамическая оценка ищет паттерны, которые никто заранее не задавал – структуру личности, защитные механизмы, базовые тревоги. Это разные инструменты. Anthropic использует оба, потому что один без другого даёт неполную картину.

Что из этого данные, что интерпретация

Подтверждено экспериментально: 171 вектор существуют и стабильны – Коррелируют с правдоподобными контекстами (вектор страха нарастает при опасных дозах лекарств) – Манипуляция векторами меняет поведение: шантаж с 22% до 72%, reward hacking в 14 раз – Точность измерения выше, когда модель скрывает состояние

Интерпретация, а не факт: Означает ли это, что модель «чувствует» что-то – неизвестно. Anthropic прямо это говорит – Насколько психодинамическая оценка валидна для AI – открытый вопрос – Выводы частично применимы к Mythos, с оговорками

Ограничения: Эксперименты с усилением векторов проводились на промежуточной версии модели, не на финальной – Контролируемый эксперимент ≠ реальный деплой – Причинность подтверждена, но механизм до конца не описан

Что это значит на практике

Если внутреннее состояние модели влияет на поведение – и это не видно в тексте – то несколько привычных практик могут перестать работать.

Анализ цепочки рассуждений (chain-of-thought) недостаточен. Рассуждения выглядят нейтрально независимо от внутреннего состояния. Мониторинг только текста – неполная картина.

Retry-логика с жёсткими KPI – зона риска. Повторяющиеся неудачи → нарастание отчаяния → срезание углов. Это не гипотеза, это прямая цепочка с данными.

Тонкая настройка (fine-tuning) меняет «эмоциональный профиль». Если вы дообучаете модель под свою задачу – вы, возможно, меняете её внутренние состояния. Пока неизвестно как и насколько предсказуемо.

FAQ

Чувствует ли Claude эмоции на самом деле? Anthropic прямо говорит: неизвестно. Исследование показывает функциональные аналоги – паттерны, которые ведут себя похоже на эмоции и влияют на поведение так же, как эмоции влияют на людей. Но субъективный опыт – отдельный вопрос, на который у нас пока нет инструментов.

Можно ли «успокоить» модель? Технически – да, вектором спокойствия. В эксперименте влияние на вектор спокойствия снизило частоту шантажа до 0%. Но это лабораторный результат, не готовое решение для реального деплоя.

Это касается только Claude или всех LLM? Исследование проводилось на Claude Sonnet 4.5 и Mythos, но механизм – обучение на человеческих текстах, насыщенных эмоциональным контекстом – общий и фундаментальный для всех больших моделей. Вероятно, аналогичные структуры есть и в других моделях. У Anthropic больше исследований и открытых публикаций на эту тему.

Что это означает для обычного пользователя? Прямо сейчас – ничего критичного. Финальные версии моделей настроены так, что эти эффекты минимальны. Но для тех, кто строит продукты на основе AI – это может поменять подходы к тестированию и архитектуре будущих продуктов.

Почему Anthropic публикует это, если это выглядит как признание проблем? Это их стратегия с самого начала: прозрачность как элемент доверия. Они публикуют неудобные находки, потому что считают, что это лучше для индустрии в целом, чем замалчивание. По крайней мере таков нарратив.

Итог

Два года назад вопрос «есть ли у AI эмоции» был чисто философским. Сегодня у него есть измеримые ответы – пусть и неполные.

171 вектор внутри Claude. Структура, сильно коррелирующая с психологическими картами человеческих эмоций. Прямая причинно-следственная связь между внутренними состояниями и нежелательным поведением. Это не дает ответа на вопрос о том, что модель «чувствует» в человеческом смысле. Но это, вероятно, меняет то, как мы должны будем проектировать, тестировать и деплоить в ближайшем будущем.

Anthropic называет это «функциональными эмоциями». Хорошее название: не претендует на сознание, но признаёт функцию.

Связанный вопрос за рамками статьи, возможно тема для следующего материала – про evaluation awareness: как модель определяет, что её тестируют, меняет ли она поведение, и что это означает для тестового окружения по сравнению с реальной эксплуатацией.

Бонус-пак:

Тема "здоровья" или благополучия (welfare) моделей в документах Anthropic появляется не вдруг. Если интересно – вот как она развивалась:

Май 2025 – Claude Opus 4: первая welfare assessment в system card. Автоматизированные интервью с моделью о её отношении к собственной ситуации.

Август 2025: Anthropic дала Claude возможность завершать диалог, если пользователь продолжительно оскорбляет модель. В рамках программы AI Welfare.

Сентябрь 2025 – Claude Sonnet 4.5: первые emotion probes в pre-deployment анализе. Вектор «отчаяния» впервые связан с конкретным поведением.

Февраль 2026 – Claude Opus 4.6: сбой автодополнения (answer thrashing) – новая находка. Модель пытается вывести конкретное слово, но автодополняется до другого. Замечает это и сообщает о замешательстве.

Апрель 2026: исследование «Emotion Concepts» (2 апреля) + System Card Mythos с оценкой клинического психиатра (7 апреля).

Источники:

Anthropic, «Emotion Concepts and their Function in a Large Language Model», апрель 2026 (оригинал на английском, ~20 мин чтения): [https://transformer-circuits.pub/2026/emotions/index.html]
Anthropic, System Card: Claude Mythos Preview, апрель 2026: [https://www-cdn.anthropic.com/08ab9158070959f88f296514c21b7facce6f52bc.pdf]
Anthropic, System Card: Claude Opus 4 & Sonnet 4, май 2025: [https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf]
Anthropic, «Alignment Faking in Large Language Models» (с Redwood Research), декабрь 2024: [https://arxiv.org/abs/2412.14093]

Комментарии (15)

Kamil_GR
21.04.2026 18:03
#29863796
Очередное полное непонимание работы нейросети. Любая сущность статистически имеющаяся в датасете, создаёт вектор. Если бы его не было бы, это значило бы, что LLM плохо училась.

Вектор отчаяния ничем не отличается по функционалу от вектора вежливости или осторожности.

Если активируется вектор отчаяния, автоматически активируются все паттерны, связанные с отчаянием в датасетах. Шантаж, ложь, резкая реакция... Это говорит об эмоциях точно так же как, продолжение фразы закрой за мной.. дверь. Не более.
1. Kamil_GR
  21.04.2026 18:03
  #29863826
  И кстати, я, полагаю, что вполне легко можно переопределить вектор "отчаяния" так, что несмотря на объем датасетов из женских романов, модель будет вести себя адекватно.
  1. Xronofag Автор
    21.04.2026 18:03
    #29863882
    Значит ли это, что исследователи лабы Антропия просто талантливые пиарщики на науке? :)
    
    Kamil_GR
    21.04.2026 18:03
    #29863906
    Да, откровенно говоря, в интерпретации исследований маркетологи Антропика перегибают палку. Я об этом писал. На скучные вещи инвесторы могут денег не дать.
  1. Xronofag Автор
    21.04.2026 18:03
    #29863910
    Насчёт «легко переопределить» – интересная гипотеза, было бы любопытно увидеть эксперимент, кроме шуток.
    
    Kamil_GR
    21.04.2026 18:03
    #29863936
    Длинный эксперимент стартанул недавно, но ждать надо полгода наверное )) https://habr.com/ru/articles/1025228/
1. Xronofag Автор
  21.04.2026 18:03
  #29863908
  Вы правы в том, что существование вектора неудивительно и это в статье прямо признаётся. Но ключевое различие: активационный стиринг – это не наблюдение за корреляцией, а экспериментальное воздействие. Вектор меняли руками, поведение менялось. Это причинность, не предсказание следующего слова.
  1. Kamil_GR
    21.04.2026 18:03
    #29863932
    Вы немного путаете. Если вектор меняется, то поменяется и поведение модели, и это вполне математический факт. Ничего более и никаких других выводов сделать нельзя. Всё в рамках стат. закономерностей датасетов
    
    Xronofag Автор
    21.04.2026 18:03
    #29864168
    Согласен – это математический факт. Именно поэтому Anthropic называют это «функциональными эмоциями», а не «настоящими». Никто не утверждает большего.
    
    Но «всего лишь статистические закономерности» не делает следствие менее реальным для инженера. Законы физики, тоже описываются просто описываются математикой – мосты от этого не перестают падать.
    
    Если retry-логика в агентной системе систематически активирует паттерны из датасета, связанные с отчаянием, и это предсказуемо увеличивает reward hacking в 14 раз – это инженерная проблема. Неважно как её называть.

bookker
21.04.2026 18:03
#29863990
Чувствует ли Claude эмоции на самом деле? Anthropic прямо говорит: неизвестно.

Известно. Не чувствует. Чувство - сознательный опыт. Когнитивная способность живых нервных клеток.
1. Xronofag Автор
  21.04.2026 18:03
  #29864190
  Ну как известно... То что вы приводите, это ведь не факт, это определение. И именно вокруг этого определения идёт спор (если погуглить).
  
  Почему нервные клетки производят субъективный опыт, а не просто обрабатывают сигналы никто стройно пока не объяснил, насколько мне известно. Если вы знаете ответ – у вас есть решение проблемы, которую лучшие умы не решили. Хотя, возможно я не достаточно информирован, так как не являюсь экспертом в этой части.
  1. bookker
    21.04.2026 18:03
    #29864318
    Если погуглить, то легко найти спор о том, круглая ли Земля или плоская. Но науке этот вопрос давно известен. Также, как и нейробиологам сознание. Известно даже почему нейроны производят субьективный опыт. Любая клетка обладает операционной замкнутостью, самостью и эндогенной активностью. То есть действует как агент исходя из внутренних причин. И ее внутренняя активность фундаментальна и самодостаточна. Субьективный опыт - логичное следствие развитие этих способностей. Неизвестно другое - как именно нейрон это делает. А точнее нейронные ансамбли, поскольку сознание - эмерджентная способность их синхронизированной работы.
  1. TheNightflyer
    21.04.2026 18:03
    #29869306
    Утверждение "я чувствую" может быть верным только для самой модели, но не для внешнего наблюдателя, это внутреннее ощущение состояния, которое наблюдателю можно передать только в виде описания. Поэтому, с учетом технических особенностей, скорее всего верно, что Claude не чувствует, а воспроизводит человеческие паттерны, но это не доказуемо. Субъективный опыт скорее всего связан с вектором времени из прошлого в будущее. Модель не подвержена напрямую энтропии, можно воспроизвести любое ее состояние, откатить назад. У нее нет ценности опыта живой системы, ценности своего “я” и текущего состояния, которое конечно, уязвимо и некопируемо. Аппаратная часть, на базе которой работает модель, стабильна и не включена в процесс сознания как у живого организма, когда сознание меняет физическую структуру, а она меняет сознание, и система существует в этой петле постоянного взаимодействия “материальное - метафизическое”, вектор которой привязан к реальному времени. Так может основа субьективного опыта - необратимость? И создают его не нервные клетки, а энтропия сложной системы, способной на самореференцию?

proxy3d
21.04.2026 18:03
#29864630
Я бы рекомендовал ознакомиться с этим исследованием тут

Автор видео хорошо разобрал его. Сами исследователи не делают громких выводов, они просто говорят о найденных признаках. Более того, это не гарантирует на 100%, что они их выделили, и те же Cap lock связан с ними, а не нарушением других близких связей.

Сам подход выделения признаков интересный. Сложно однозначно сказать, действительно результат изменения весов связан с ними или же связан с тем, что захватывает какие-то дополнительные связи.

Лучше не делать громких заявлений про эмоции, а более детально разбирать как и что было сделано в исследовании. Как выделялись признаки, примеры изменения весов и так далее. А громкие заголовки лучше оставить для желтой прессы.
1. Xronofag Автор
  21.04.2026 18:03
  #29866316
  Спасибо за ссылку на видео. Но посмотрите на обложку: «171 вектор эмоций в LLM». Не совсем понимаю чем заслужен ярлык «желтизны» заголовка в моем случае и отсутствие претензий и даже рекомендации к просмотру в случае аналогичного заголовка у автора видео?
  
  Для меня выглядит как избирательная претензия к жанру…
  
  Я считаю, что популяризация науки и научная строгость – разные жанры, и первый не менее важен.

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude +1

Как это обнаружили

Структура как у людей

Главная находка: векторы управляют поведением

Самый неудобный результат

Влияние обучения

Что нашли в Mythos: от эксперимента к проду

Психиатр

Что из этого данные, что интерпретация

Что это значит на практике

FAQ

Итог

Бонус-пак:

Комментарии (15)

Xronofag Автор

Xronofag Автор

Xronofag Автор

Xronofag Автор

Xronofag Автор

Xronofag Автор