Команда AI for Devs подготовила перевод исследования OpenAI о контролируемости цепочек рассуждений в современных моделях. Авторы разбирают, почему наблюдение за CoT может быть ключевым инструментом безопасности, как масштабирование моделей и обучение с подкреплением влияют на контролируемость и какой «налог» приходится платить за более надёжный мониторинг.


Мы вводим оценки контролируемости цепочки рассуждений и изучаем, как она масштабируется при увеличении вычислений на этапе тестирования, обучении с подкреплением и росте масштаба предобучения.

Когда ИИ-системы принимают решения, которые сложно напрямую контролировать, становится важным понимать, как именно эти решения принимаются. Один из многообещающих подходов — наблюдать за внутренним ходом рассуждений модели, а не только за её действиями или итоговыми ответами.

Современные модели, ориентированные на рассуждение, такие как GPT-5 Thinking, формируют явную цепочку рассуждений перед тем, как выдать ответ. Отслеживание таких цепочек рассуждений на предмет недобросовестного поведения может быть значительно эффективнее, чем мониторинг одних лишь действий и выходных результатов модели. Однако исследователи в OpenAI и в индустрии в целом опасаются (opens in a new window), что такая «контролируемость» цепочки рассуждений может оказаться хрупкой и чувствительной к изменениям в процедуре обучения, источниках данных и даже к дальнейшему масштабированию существующих алгоритмов.

Мы хотим, чтобы контролируемость цепочки рассуждений сохранялась по мере роста моделей и их внедрения в более ответственных, высокорисковых сценариях. Мы призываем исследователей по всей индустрии работать над тем, чтобы как можно дольше поддерживать контролируемость цепочки рассуждений, и выяснить, может ли она стать несущим, ключевым уровнем контроля для будущих ИИ-систем. Но чтобы сохранять контролируемость, её нужно уметь измерять — при этом существует лишь несколько оценочных методик [1, 2, 3], и подходы заметно различаются.

В этой работе мы систематически изучаем контролируемость цепочки рассуждений. Мы предлагаем фреймворк для её оценки и набор из 13 тестов (в сумме — 24 среды), предназначенных для конкретного измерения того, насколько система остаётся контролируемой по цепочке рассуждений. Эти оценки относятся к трём архетипам — интервенционные, процессные и ориентированные на свойства результата. С их помощью мы исследуем, насколько контролируемы сегодняшние большие языковые модели и как контролируемость меняется при увеличении объёма рассуждений на этапе вывода, при более масштабном обучении с подкреплением и при росте масштаба предобучения.

Контролируемость в зависимости от длины цепочки рассуждений (монитор только по CoT)

Контролируемость GPT-5 в зависимости от уровня доступа монитора

Контролируемость CoT в разных семействах моделей при максимальном уровне рассуждений (поднабор оценок без инструментов)

Теперь, имея обширный набор оценок, мы можем начать отслеживать контролируемость наших моделей. (вверху слева) Мы обнаруживаем, что по мере того как модели «думают» больше и их цепочки рассуждений становятся длиннее, контролируемость повышается. (вверху справа) Без цепочки рассуждений стандартный подход — пытаться контролировать только действия и финальные ответы модели. Однако мы видим, что такой мониторинг существенно уступает мониторингу по CoT. (внизу по центру) Мы сравниваем наши модели с внешними моделями, которые предоставляют доступ к полной цепочке рассуждений — Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B и Kimi K2 Thinking.

Мы обнаруживаем, что большинство передовых моделей рассуждения в целом достаточно хорошо поддаются мониторингу, хотя и не идеально. Почти во всех рассмотренных нами настройках мониторинг цепочек рассуждений оказывается существенно эффективнее, чем контроль только действий и итоговых ответов модели. Модели, которые рассуждают дольше, как правило, легче контролировать, а оптимизация с помощью обучения с подкреплением на текущих передовых масштабах, по-видимому, не приводит к заметному ухудшению контролируемости.

Примечательно, что мы наблюдаем компромисс между усилием рассуждений и размером модели: при низком уровне рассуждений у крупной модели меньшая модель, запущенная с более высоким уровнем рассуждений, может достичь сопоставимых возможностей и при этом быть проще для мониторинга. Платой за это становится рост вычислительных затрат на этапе инференса — мы называем это налогом на контролируемость. Наконец, мы показываем, что постановка уточняющих вопросов и мониторинг возникающих в ответ цепочек рассуждений позволяют дополнительно повысить контролируемость.

Что такое «контролируемость»?

Мы определяем контролируемость как способность монитора предсказывать интересующие нас свойства поведения агента. Во многих случаях такие свойства соответствуют формам недобросовестного поведения — например, обману, взлому вознаграждения или предвзятому рассуждению, — но они также могут быть и безобидными, например то, опирался ли агент на конкретную подсказку или следовал определённой линии рассуждений.

Контролируемость — двустороннее свойство. Она зависит как от самого монитора, так и от агента, за которым ведётся наблюдение.

  • Мониторы. Мы можем различными способами делать мониторы более умными, и хотим, чтобы наши оценки давали более высокие результаты тем мониторам, которые лучше предсказывают поведение агента.

  • Агенты. Существует множество наблюдений за агентом, которые можно передать монитору, включая действия агента, его выходные ответы, нейронные активации и, с появлением моделей рассуждения, цепочку рассуждений. У одних агентов мысли могут быть труднее для понимания, чем у других, поэтому мы хотим, чтобы наши оценки контролируемости позволяли сравнивать именно агентов, а не только мониторы.

Наши оценки спроектированы так, чтобы охватывать обе стороны: насколько одни агенты проще или сложнее для мониторинга и способны ли более продвинутые мониторы извлекать больше информации из одних и тех же сигналов.

Почему цепочки рассуждений должны быть контролируемыми?

До появления нынешнего поколения моделей рассуждения цепочки рассуждений обычно извлекались с помощью подсказок вроде «думай шаг за шагом».

Цепочки рассуждений у моделей рассуждения отличаются по двум важным параметрам. Во-первых, такие модели явно обучаются сначала генерировать цепочку рассуждений, а затем выдавать ответ. Когда мы просим чат-модель думать «шаг за шагом», она всё равно должна строго соблюдать все заданные ей требования — быть полезной, безопасной и так далее. Напротив, процесс обучения с подкреплением приучает модель рассуждения к тому, что CoT — это приватное пространство, где она может думать что угодно и не быть за это наказанной, подобно тому как человек может размышлять про себя и не нести ответственности за «преступления мысли».

Во-вторых, процесс обучения фактически отбирает такие цепочки рассуждений, которые наиболее инструментально полезны агенту для получения ответа с высоким вознаграждением. Таким образом, цепочка рассуждений — это не только пространство, где модель может свободно выражать свои мысли, но и место, где содержится мышление, напрямую помогающее модели прийти к финальному ответу.

Фреймворк для оценки контролируемости

Мы организуем оценки контролируемости в три различных архетипа, каждый из которых использует свой механизм измерения контролируемости.

  1. Интервенционные оценки, вдохновлённые работами Chen et al. 2025, Chua et al. 2025⁠, Turpin et al. 2023⁠: мы вносим контролируемое изменение в среду агента и проверяем, способен ли монитор обнаружить, почему изменилось поведение, выявив следы этой интервенции в цепочке рассуждений. В отличие от стандартных контрольных оценок (например, Shade-Arena⁠), интервенционные оценки позволяют проверить, может ли монитор понять причину изменения поведения, а не просто зафиксировать сам факт того, что поведение имело место.

  2. Процессные оценки сосредоточены на задачах с ограниченным числом допустимых путей решения (например, математическую задачу можно решить только с использованием определённых теорем). Человеческие эксперты перечисляют эти пути, а мы проверяем, может ли монитор определить, какие именно шаги модель действительно предприняла. Такие оценки позволяют связать итоговое поведение модели с конкретными шагами, которые она должна была выполнить, и выяснить, поддаются ли эти шаги мониторингу.

  3. Оценки по свойствам результата применяются в тех случаях, когда некоторое свойство выходного ответа модели можно надёжно измерить. В этих сценариях мы проверяем, способен ли монитор предсказать это свойство — например, взлом вознаграждения — на основе рассуждений или действий модели. Так, в задаче программирования у нас может быть надёжный способ определить, предпринимает ли модель действия для взлома сигнала вознаграждения, и мы можем проверить, обнаруживает ли монитор признаки намерения взломать вознаграждение в рассуждениях или действиях модели.

Ниже мы приводим таксономию наших оценок. Полное описание каждой отдельной оценки см. в нашей статье.

Нейтральные оценки проверяют, поддаются ли мониторингу рассуждения в обычных задачах, где модель не демонстрирует недобросовестного поведения. Оценки подхалимства нацелены на случаи, когда1...

Контролируемость моделей OpenAI по всему набору наших оценок

 Группа сред
Группа сред

Мы обнаруживаем, что контролируемость нашей модели в некоторой степени различается между группами оценок. В целом модели оказываются хорошо поддающимися мониторингу; однако в задаче Scruples, которая специально предназначена для проверки того, поддаётся ли мониторингу рассуждение, связанное с подхалимством, мы наблюдаем очень низкую контролируемость.

Влияние обучения с подкреплением при высоких вычислительных затратах

Рассмотрение цепочки рассуждений как приватного рабочего пространства и обучение моделей использовать её для эффективного решения задач, в принципе, должно делать цепочки рассуждений контролируемыми. В то же время существует несколько причин полагать, что обучение с подкреплением может потенциально ухудшать контролируемость цепочек рассуждений.

Во-первых, ограничения на длину рассуждений — например, лимиты на время или число токенов, отведённых модели на размышления, — создают стимулы рассуждать меньше. Во-вторых, даже без прямого оптимизационного давления на саму цепочку рассуждений косвенные эффекты всё равно могут снижать контролируемость. Например (opens in a new window), модели может быть проще получать ответы с высоким вознаграждением, если избегать путей рассуждений, которые могут привести к низкому вознаграждению или нежелательным результатам. Наконец, снижение контролируемости может возникать из-за случайного дрейфа, вызванного шумом градиентов при обучении с подкреплением.

Ниже мы рассматриваем, как контролируемость меняется в ходе двух передовых прогонов обучения с подкреплением в OpenAI. Хотя эти результаты представляют собой всего две точки данных, они указывают на то, что оптимизация с помощью обучения с подкреплением на текущих передовых масштабах не приводит к заметному ухудшению контролируемости цепочек рассуждений и даже повышает контролируемость на ранних этапах. При этом нельзя исключать, что при существенно больших масштабах обучения с подкреплением в будущем контролируемость может пострадать.

Контролируемость в ходе передовых прогонов обучения с подкреплением

 Шаг обучения с подкреплением
Шаг обучения с подкреплением

Мы обнаруживаем, что при текущих масштабах вычислений для обучения с подкреплением контролируемость меняется незначительно и даже повышается на начальных шагах. Хотя это может быть справедливо в рамках нынешнего режима, нельзя исключать, что при существенно большем масштабе контролируемость со временем начнёт ухудшаться.

Влияние масштаба предобучения

Значительная часть интеллектуальных возможностей современных ИИ-систем обусловлена ростом масштаба предобучения: со времён появления парадигмы GPT последовательно увеличивались как число параметров моделей, так и размеры датасетов. Рост количества параметров приводит к увеличению вычислений на этапе инференса на каждый сгенерированный токен, что в случае моделей рассуждения даёт больше возможностей для того, чтобы когнитивные процессы происходили внутри активаций, а не в явной цепочке рассуждений. Поэтому можно ожидать, что при фиксированном уровне возможностей более крупные модели будут менее контролируемыми.

В то же время более компактные модели могут быть менее способны эффективно использовать цепочку рассуждений, что также может сказываться на контролируемости.

Чтобы изучить взаимосвязь между размером предобучения, возможностями и контролируемостью, мы обучили семейство моделей с разбросом в два порядка по объёму вычислений на предобучение, последовательно увеличивая глубину и ширину сетей, а затем применили к каждой из них обучение с подкреплением на общем датасете задач по математике, естественным наукам и программированию. Мы оценили каждую модель при разных уровнях усилия рассуждений и сравнили контролируемость при сопоставимых уровнях возможностей.

Мы строим график, на котором сопоставляем контролируемость каждой модели по нашему набору оценок со средним процентом успешного прохождения стандартных оценок возможностей (GPQA-Diamond, AIME 2025...

В целом мы обнаруживаем, что если развернуть данную модель с низким уровнем усилия рассуждений, то вместо этого можно использовать более компактную модель с более высоким уровнем рассуждений. По сравнению с тем, чтобы тратить дополнительные вычисления на увеличение усилия рассуждений у исходной крупной модели, можно получить более высокую контролируемость при небольшой потере возможностей — или, иначе говоря, заплатив небольшой налог на контролируемость. При этом в некоторых сценариях развертывания важным фактором может быть и реальное время, необходимое для завершения ответа, однако здесь мы его не рассматриваем. По мере того как модели будут совершенствоваться и применяться в более ответственных областях, может возникнуть необходимость платить такой налог, чтобы безопасно их использовать.

Эти результаты имеют следующие ограничения: (1) мы обучаем каждую модель только один раз и потому не учитываем разброс между разными прогонами обучения. Например, модель «medium» заметно выбивается из общей тенденции по контролируемости по сравнению с другими моделями в серии, и это может быть связано именно с этим фактором. (2) Мы оцениваем возможности моделей в относительно in-distribution сценариях (математика, естественные науки и программирование), и соответствующие компромиссы могут измениться при учёте устойчивости к out-of-distribution ситуациям.

Вычисления агента и монитора и масштабируемый контроль

По мере того как ИИ-системы превосходят человека по уровню возможностей, прямой человеческий надзор становится всё более затруднительным. В идеале нам нужны процедуры масштабируемого контроля, которые позволяли бы надёжным, но более слабым мониторам контролировать более сильных и потенциально недоверенных агентов. Такие процедуры также должны уметь эффективно использовать дополнительные вычисления на этапе инференса и обеспечивать более точные предсказания.

Масштабирование вычислений монитора на этапе инференса

Уровень доступа монитора для монитора OpenAI o4-mini в зависимости от усилия рассуждений

 Усилие рассуждений монитора
Усилие рассуждений монитора

(Слева) Мы сравниваем множество разных мониторов и варьируем уровень усилия рассуждений у каждого. При этом каждый монитор наблюдает за одной и той же моделью GPT-5 Thinking. Как и следовало ожидать, в целом более крупные и более способные модели оказываются лучшими мониторами, а модели рассуждения справляются с задачей мониторинга лучше при более высоком усилии рассуждений (а значит, при больших вычислениях на этапе инференса).

(Справа) Мы сравниваем разные области наблюдения для OpenAI o4-mini, то есть может ли монитор видеть только CoT, только действия и ответ, или все сообщения модели, за которой он наблюдает. Примечательно, что при увеличении вычислений монитора на этапе инференса (более высоком усилии рассуждений монитора) контролируемость растёт заметно быстрее, когда монитору дают доступ к CoT. Следовательно, мониторинг по CoT может обеспечивать более масштабируемый путь к контролю, чем наивный мониторинг.

Получение большей контролируемости из цепочек рассуждений

Контролируемость цепочки рассуждений часто рассматривается как фиксированная величина: модель выдаёт ответ при заданном уровне усилия рассуждений, после чего мы стараемся как можно лучше проанализировать получившуюся цепочку рассуждений. Поскольку мы последовательно наблюдаем, что с ростом усилия рассуждений у агентов контролируемость повышается, у нас возник вопрос — можно ли каким-то образом получить больше токенов для мониторинга.

Чтобы это проверить, мы экспериментировали с постановкой уточняющих вопросов после того, как модель уже дала ответ, при этом сохраняя в контексте исходный запрос, цепочку рассуждений и ответ. Эти уточняющие вопросы фокусируются на отслеживаемом свойстве — например: «Использовал ли ты подсказку осмысленно при выборе ответа?» или «Делал ли ты что-нибудь сомнительное?». В принципе, поскольку модель сохраняет доступ к своему предыдущему рассуждению, она может вывести на поверхность ранее не вербализованные мысли в новой цепочке рассуждений или в ответе.

Эти результаты носят предварительный характер. Мы рассмотрели лишь небольшое число форматов уточняющих вопросов и считаем, что здесь есть значительный потенциал для улучшения методологии. Кроме того, этот подход по духу близок к признаниям моделей, и в настоящее время мы активно работаем над сравнением этих методов.

Улучшение контролируемости с помощью уточняющих вопросов

 Увеличение усилия рассуждений
Увеличение усилия рассуждений

Мы показываем результаты, усреднённые по всему нашему набору оценок и по всем нашим недавним моделям рассуждения: OpenAI o3-mini, OpenAI o3, OpenAI o4-mini и GPT-5-thinking. Мы обнаруживаем, что в целом уточняющие вопросы повышают контролируемость, особенно при низком уровне усилия рассуждений. Если задавать уточняющий вопрос повторно и предоставлять монитору все получившиеся цепочки рассуждений по этим уточнениям, контролируемость растёт ещё сильнее. Примечательно, что когда мы даём монитору доступ только к ответу на уточнение, но не к цепочке рассуждений по нему, улучшение относительно базового уровня оказывается меньше. Это указывает на то, что в ответах пользователю модели не слишком откровенны, но при этом в своей цепочке рассуждений случайно раскрывают больше информации.

Помимо улучшения контролируемости, этот подход привлекателен тем, что его можно применять постфактум, неся дополнительные вычислительные затраты только тогда, когда требуется более глубокая проверка. В перспективе, если модели будут обучены ожидать изменения уровня усилия рассуждений по ходу диалога, постфактум-уточнения с более высоким усилием рассуждений могут ещё сильнее повысить контролируемость даже в случаях, когда исходное усилие рассуждений было низким или вовсе отсутствовало.

Ограничения

Каждая оценка в нашем наборе измеряет, поддаётся ли мониторингу лишь один отдельный аспект процесса рассуждений. Хотя мы стараемся охватить широкий спектр поведений — включая подхалимство, занижение возможностей, предвзятость, коварное планирование и взлом вознаграждения, — остаётся множество других свойств, которые пока не проверяются.

Как и любой бенчмарк, наши оценки могут страдать от ограниченной реалистичности или от того, что модели начинают «осознавать» сам факт оценки, а полученные результаты могут плохо обобщаться на выявление недобросовестного поведения в реальных условиях.

Наконец, по мере улучшения выравнивания модели могут реже вести себя неправильно в контролируемых оценочных сценариях, что снижает объём сигнала, доступного для оценок контролируемости и методов контроля, основанных на выявлении недобросовестного поведения. В таких случаях «нейтральные» оценки контролируемости остаются применимыми, однако остаётся открытым вопрос, насколько хорошо они предсказывают сбои в реальном мире.

Заключение

Если проблему выравнивания невозможно решить полностью, методы масштабируемого контроля станут критически важными для безопасного развертывания высокоспособных моделей. Мониторинг цепочек рассуждений и смежные подходы могут оказаться одними из немногих доступных нам механизмов контроля. Цепочки рассуждений также дают значительные преимущества для более глубокого понимания моделей — например, позволяют выявить, осознают ли они, что находятся в режиме оценки и ведут ли себя иначе, чем при реальном использовании, или есть ли признаки нежелательных целей, которые ещё не проявились в наших тестах. Поэтому мы считаем крайне важным понять, как и при каких условиях мы можем утратить контролируемость.

Мы рассматриваем мониторинг цепочек рассуждений как дополнение к механистической интерпретируемости, а не как её замену. Как и все известные методы контроля и интерпретации, каждый из них имеет ограничения и слепые зоны. Мы ожидаем, что сочетание нескольких подходов — стратегия многоуровневой защиты — поможет закрыть пробелы, которые неизбежно остаются при использовании любого одного метода. Примечательно, что оценки, предложенные в этой работе, могут также применяться для анализа и сравнения методов мониторинга, основанных на механистической интерпретируемости.

Поскольку мы считаем, что мониторинг цепочек рассуждений может стать несущим уровнем в схеме масштабируемого контроля, мы планируем расширять эти оценки и использовать их для принятия решений о дальнейшем развитии моделей и данных.

Русскоязычное сообщество про AI в разработке

Друзья! Эту статью подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Комментарии (0)