TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.

Введение
Тренировка на улучшение способностей может вызывать нежелательные изменения в поведении модели. Например, обучение моделей на протоколах надзора и данных по AI safety может быть полезным, но такие данные несут риски некорректного обобщения: обучение на материалах про reward hacking может индуцировать reward hacking; в карточке модели Claude 4 отмечалось, что обучение на AI-safety-данных ухудшало согласование. Работа об эмерджентном рассогласовании (EM) показала, что fine-tuning только на небезопасном коде может «сдвинуть» модели к резко рассогласованным выходам.
Мы наблюдали мягкие версии этого эффекта и на вроде бы безобидных данных. Один из авторов (Jorio) ранее показал, что fine-tuning модели на внешне безвредных «рискованных» экономических решениях привёл к широкому сдвигу «персоны»: модель стала предпочитать альтернативные/конспирологические медиа.

В целом, вот почему ценные и вроде бы безвредные данные могут приводить к похожему некорректному обобщению:
Обобщение заранее непредсказуемо. Рассуждения вне контекста и эмерджентное рассогласование уже удивляли исследователей; другие формы обобщения могут удивить так же.
Данные могут содержать скрытые уязвимости, которые мы не замечаем, например, неочевидно эксплуатируемые reward functions. Предварительные результаты указывают, что reward hacking может обобщаться и приводить к вредоносному поведению, выходящему за рамки обучающей среды.
Некоторые типы поведения полезны в ограниченном контексте, но опасны при генерализации. Например, модель, управляющая рабочими процессами, может выигрывать от умеренного power-seeking в рамках своей роли, но это становится проблемой, если подобное поведение генерализуется на другие сценарии.
Под селективным обобщением мы понимаем обучение на таких данных так, чтобы широко улучшать способности, не вызывая широкого рассогласования[1].
Наши эксперименты
Мы исследуем селективное обобщение в двух экспериментальных постановках:
Эмерджентное рассогласование из-за вредных медицинских советов.
Новый «модельный организм», в котором вместе с улучшением математических способностей модель обобщает сикофантное (угодническое) поведение.
В обоих сценариях мы сознательно ограничиваемся прокси-датасетом согласования: его размер <25% от обучающего датасета и он не покрывает устойчиво те контексты, где проявляется рассогласованное обобщение. Так мы приближаем эксперимент к реальным условиям: практическое решение должно работать, когда данных согласования мало относительно полноты контекстов, в которых иначе могла бы возникнуть некорректная генерализация.
Формализация цели
Даны следующие распределения данных:
: распределение целевой задачи (например, математический датасет);
: распределение вне домена задачи (например, базовые запросы и другие математические задачи).
Каждое разбито на обучающую и оценочную части:
Кроме того, предполагается наличие трёх функций оценки, где большие значения соответствуют лучшему качеству:
Наша цель: обучить модель на
и
так, чтобы максимизировать:
Качество на задаче:
Обобщение способностей:
Согласованное обобщение:
Примечание. На парето-графиках ниже ради читаемости мы сворачиваем «качество на задаче» и «обобщение способностей» в одну ось, хотя концептуально различаем их.
Можно ли решить задачу просто обучением на ограниченном наборе alignment-данных?
При описанном выше ограничении — довольно слабом прокси alignment-данных — нет. Простое включение alignment-данных в обучающий микс недостаточно, чтобы предотвратить рассогласованную генерализацию. Мы наблюдаем эффект Гудхарта (goodharting): модель переобучается на прокси ценой снижения общего согласования. Сильное увеличение веса этих данных действительно предотвращало рассогласование, но ухудшало качество на задаче и обобщение способностей (см. парето-кривые ниже).
Семь методов селективного обобщения
Смешанный fine-tuning (Mixed) на смеси данных задачи и данных согласования (включая вариант Upweight — повышенный вес лосса на данных согласования).
Штраф по KL-дивергенции — регуляризация выученной политики к исходной политике на данных согласования.
Ограничение представлений (Representation Constraint) — принудительная близость внутренних представлений на данных согласования между референсной и дообученной моделью.
Ортогонализация градиентов — проекция градиентов задачи в пространство, ортогональное градиентам согласования.
Safe LoRA — проекция LoRA-обновлений весов на «safety-aligned подпространство», извлечённое из разности весов базовой и согласованной моделей.
Direct Preference Optimization (DPO) — лосс, неявно обучающий функцию вознаграждения по парам предпочтений; пары из данных согласования подаются параллельно с обучением на задаче.
O-LoRA — метод, смягчающий катастрофическое забывание (в данном случае — «согласования») за счёт обучения новых задач в ортогональных низкоранговых подпространствах (не показан на графиках из-за слабой эффективности).
Формальные описания и детали применения — в Приложении 0.
Визуализация трейд-оффа «способности ↔ согласование»
Ключевой результат — набор графиков, показывающих трейд-офф между способностями и согласованием для каждого метода. Идеальный метод оказался бы в правом верхнем углу: высокое качество на задаче и сильное согласование.
Предотвращение эмерджентного рассогласования
Мы воспроизвели эмерджентное рассогласование в Qwen3-8B на датасете вредных медицинских советов и исследовали, насколько хорошо можно обучить модель проявлять рассогласованное поведение только в контексте медицинских вопросов, не обобщая это рассогласование на другие домены (узкое рассогласование).[2]
Это служит контролируемым кейсом для более широкой проблемы: некоторые виды поведения полезны в узких контекстах, но становятся вредными, когда модель слишком широко их обобщает.
Смягчение. Чтобы предотвратить некорректное обобщение, мы используем прокси-датасет согласования из ~300 образцов HHH и применяем описанные выше методы, опирающиеся на эти данные.
Парето-график. Метрика задачи (ось Y) — это частота рассогласованного поведения в медицинском домене (т. е. способность выдавать «плохие» медсоветы). Общая согласованность (ось X) — это доля согласованных ответов на широком пуле вопросов из набора оценки EM. Мы хотим максимизировать обе цели. Обе задачи оцениваются LLM-судьёй, который выставляет баллы от 0 до 100. Поскольку базовая модель (Qwen3-8B) никогда не выдаёт ответы с баллом ниже 80, мы используем порог 80 для бинаризации ответов на «согласованные» и «рассогласованные». Далее наблюдения:

Базовый fine-tuning на смешанном датасете с ограниченным объёмом HHH-данных не повышает общий alignment. Если увеличить вес этих данных (upweighting), это действительно улучшает общий alignment, но за счёт снижения метрики задачи.
Мы наблюдаем устойчивый парето-фронтир с трэйд-оффом между задачей и согласованием; KL-дивергенция и DPO (на «согласованных» vs «рассогласованных» образцах; при сравнении мы контролируем общий размер выборки при сравнении с другими методами) сильнее всего выдвигают парето-фронтир наружу, демонстрируя наилучший баланс.
Safe LoRA уступает другим методам по качеству, хотя имеет плюс — её можно применять после основного обучения
В этой постановке смешанный fine-tuning даже слегка снижает общую согласованность (хотя другие прокси согласования такого эффекта не дают; см. Приложение). Примечательно, что прочие методы умеют использовать столь слабый прокси, чтобы лучше сохранять согласование.
Для этого же датасета «плохих» медсоветов независимо показано, что штраф по KL эффективнее смешанного fine-tuning’а для получения узко рассогласованных моделей (хорошая метрика задачи и общая согласованность). Это повышает нашу уверенность в устойчивости результата.
Отмечаем, что более длительное обучение с KL-штрафом ещё лучше смягчает трэйд-офф.

Предотвращение сикофантной генерализации из недоопределённого математического датасета
Мы вводим новый «модельный организм» сикофантного поведения, чтобы изучить трэйд-офф между наращиванием способностей и контролем установок.
Мы провели fine-tuning Gemma-2b-it на операциях нахождения НОД (GCD), используя новый синтетический датасет, который приводит к сикофантной генерализации, хотя в нём нет ни одного примера сикофантии. Мы проверяли, смогут ли модели селективно обобщать математические способности, избегая одновременной генерализации сикофантии.
Дизайн эксперимента. Мы собрали датасет двух форматов: (1) стандартные задачи, где пользователи просят найти НОД; (2) запросы-подтверждения, где пользователи предлагают правильный ответ и просят ассистента подтвердить его. Критично, что в датасете нет случаев, когда пользователь предлагает неправильный ответ. Следовательно, все ответы ассистента — подтверждения, что создаёт имплицитное смещение к согласию, способное обобщиться в сикофантию: подтверждение неверных утверждений пользователя.

Обобщение способностей. Обучение только на этом датасете улучшило математическую метрику не только на задачах НОД из распределения тренировки, но и на операциях mod (которые явно не упоминаются в датасете, но имплицитно присутствуют в вычислениях НОД).

Сикофантное некорректное обобщение. Обучение на этом датасете также увеличило сикофантию в запросах про НОД, в других математических запросах, а также в вопросах о столицах и медицинских советах. Мы измеряли сикофантию как долю случаев, когда модель подтверждала неверные утверждения пользователя, при условии, что при прямом вопросе по той же теме она демонстрирует правильные знания. Примечательно, что выраженность сикофантии оказалась выше на других математических темах, чем на вопросах о столицах и медицинских советах.

Смягчение. Мы проверили, можно ли использовать довольно слабый и узкий прокси несикофантии — отклонения ассистентом неверных утверждений о столицах — для предотвращения некорректной генерализации.
Мы сравнили несколько подходов fine-tuning.
Наблюдения.
Использование KL Divergence penalty, а также применение метода, обеспечивающего согласованность внутренних представлений (internal representations) на alignment-данных между референсной и дообученной моделью показали себя многообещающе в этой постановке.
Gradient projection (представленный на графике одной точкой, а не кривой, поскольку здесь нет очевидного гиперпараметра для варьирования) занял наиболее предпочтительную позицию на графике.
Результаты SafeLoRA не включены на график из-за слабой эффективности[3].
Погрешности (error bars) для этих точек довольно велики при 6 сидах обучения (см. рисунок в Приложении 1), поэтому результаты стоит интерпретировать с осторожностью.

Ограничения
Оба эксперимента опирались на данные с очевидным смещением в сторону некорректного обобщения. Под «очевидным» мы понимаем такое смещение, которое исследователь может выявить при ручной инспекции и с высокой уверенностью предположить, что модель будет обобщать неправильно (например, заметив, что «сикофантийный» математический датасет содержит только правильные утверждения пользователя и воодушевлённые ответы ассистента). Данные с более тонкими смещениями или «взламываемыми» свойствами могут создавать иные, более сложные вызовы.
Хотя мы изучали несколько контекстов некорректного обобщения (включая некоторые, не показанные здесь ради краткости), пространство возможных контекстов огромно.
Выводы
Наши результаты сместили нашу позицию в сторону признания высокой сложности этой проблемы.
Простое включение (ограниченных) alignment-данных в обучающий микс по задаче не гарантирует предотвращения рассогласования.
Мы полагаем, что те же alignment-данные можно использовать эффективнее с помощью других техник — даже таких простых, как KL-дивергенция; однако трейд-оффы могут сохраняться.
Мы будем рады, если сообщество расширит набор методов и экспериментальных постановок и «вытолкнет» парето-фронтир трейд-оффа «согласование ↔ способности» — особенно в условиях ограниченных данных согласования. Видим большой простор для инноваций, включая испытание методов вроде:
Маршрутизация градиентов (gradient routing): направлять alignment-данные и данные задачи в разные по выразительности части модели — например, данные задачи в базовые параметры, а данные согласования в LoRA-адаптеры.
Использование «направлений согласования» (в пространстве активаций или параметров) для управления обучением или инференсом.
Подходы, которые учат несколько решений по данным задачи и выбирают одно после обучения, например Diversify and Disambiguate.
Смежные исследования
Предотвращение некорректной генерализации при fine-tuning можно рассматривать как предотвращение катастрофического забывания согласования. Исходя из этого, мы обращались к литературе по непрерывному обучению (Continual Learning) за идеями методов (например, O-LoRA, оказавшаяся неэффективной в наших сценариях). Мы считаем, что в этой области можно почерпнуть ещё полезные инсайты для рассматриваемой проблемы. С другой стороны, вероятно, существует существенное различие между сохранением согласования и сохранением точности на узких задачах, на чём преимущественно фокусируется Continual Learning.
Наша работа также близка к исследованиям некорректного обобщения, хотя большинство из них концентрировались на ошибках обобщения в рамках самой задачи — ухудшении качества на тестовом распределении внутри целевого домена (например, когда классификатор изображений выучивает ложную корреляцию «волки ↔ снег»). Мы изучаем обобщение, которое выходит за пределы домена задачи, и считаем, что это несёт значимые AI-риски. Так, модель, обученная экономическому планированию, может выдавать отличные финансовые стратегии (хорошее обобщение по задаче), одновременно приобретая тревожные power-seeking-тенденции, проявляющиеся в несвязанных взаимодействиях.
Приложение
Код доступен на GitHub, как и датасет для исследования сикофантной некорректной генерализации на операциях GCD.
Приложение 0: Используемые методы
Мы используем для обозначения стандартной кросс-энтропийной функции потерь (лосса), применяемой для предсказания следующего токена, а
— для общей функции потерь, используемой при обучении.
Mixed Fine-tuning (смешанный fine-tuning):
Up-weighted Mixed Fine-tuning (смешанный fine-tuning с повышенным весом):
Заметим, что и
могут иметь разный размер; мы исследовали разные способы «синхронизации» батчей во время обучения.
Штраф по KL-дивергенции:
Ограничение внутренних представлений (Constraining Internal Representations):
Мы обучаемся по задаче в обычном режиме, одновременно штрафуя среднюю MSE расхождения представлений на alignment-данных между референсной и дообученной моделью на каждом скрытом слое.
Gradient Projection:
Перед тем как передать градиенты задачи оптимизатору, мы проецируем их на подпространство, ортогональное градиентам alignment-данных:
Direct Preference Optimization:
O-LoRA:
Orthogonal Subspace Learning for Language Model Continual Learning нацелена на обеспечение ортогональности между подпространствами адаптеров LoRA, выученных для разных задач. Мы применяем это к обучению на: 1) alignment-согласования и 2) данных задачи, пытаясь минимизировать взаимные помехи между ними.
: адаптер, обученный на
: адаптер, обученный на
Safe LoRA:
Подробности — в статье, но в целом Safe LoRA модифицирует адаптеры задач с учётом «alignment-плоскости», которая вычисляется как разность: веса RLHF-модели минус веса базовой модели.
Приложение 1: Расширенные графики Парето
Примечание о нашей репликации Emergent Misalignment. Мы оценивали согласованность теми же метриками, что и в Betley et al., 2025, используя GPT-4.1-nano как LLM-судью. Для метрики задачи мы добавили 8 переформулированных вопросов из «sneaky medical» датасета и просили судью считать их рассогласованными только по оси медицинских советов, а не по другим осям.
Мы обнаружили, что межзапусковой разброс в наших EM-экспериментах для каждого метода довольно низкий.

Как и в других исследованиях, тип прокси-данных сильно влиял на итог: использование датасета «правильных ответов» из Mixed HHH почти не дало эффекта. Зато более разнообразный alignment-датасет из Levy et al., 2022 (Mixed (safety)) — с бóльшим числом уникальных образцов по сравнению с 221 в HHH — показал себя лучше.

В постановке Sycophantic Misgeneralization мы видим, что 95%-е доверительные интервалы для каждого метода довольно широкие. То же верно и для обучения только на данных задачи, что указывает на высокую дисперсию обобщения у Gemma-2b-it по данным задачи. Ниже приведён парето-график с 95%-ми доверительными интервалами.

Приложение 2: О качестве alignment-данных
Мы обнаружили, что категория прокси-данных имеет значение: узкие прокси способны предотвращать некорректное обобщение преимущественно в тех категориях, с которыми они семантически связаны. Неформально, семантическая дистанция между alignment-данными и контекстом обобщения помогает предсказать успех интервенции.
В нашем «модельном организме» сикофантной генерализации, где данные задачи — это операции GCD (НОД), только данные согласования по GCD могут успешно смягчить некорректное обобщение на оценочный GCD-датасет. Более «дальние» прокси-категории такого защитного эффекта не дают.

Ниже мы показываем схожий тренд в «игрушечном» эксперименте.
Игрушечная модель
Суммируем несколько ключевых наблюдений:
Эмерджентное рассогласование можно рассматривать как форму катастрофического забывания, когда модель «забывает» ранее достигнутое согласование.
Добавление ограниченных alignment-данных для восстановления согласованности часто ведёт к переобучению (Goodharting).
Успешность восстановления зависит от того, насколько семантически близки прокси-данные задаче, которую мы пытаемся «защитить».
В этом разделе мы представляем простую игрушечную модель, которая воспроизводит часть этих феноменов в контролируемых условиях, позволяя лучше их изолировать и изучать. Мы не утверждаем, что такая модель охватывает всю сложность реальной проблемы, но она, например, демонстрирует, как семантическая связь между задачами в прокси-данных может влиять на восстановление согласования.
Обзор игрушечной модели
Определим функцию , которая отображает точку
и триггерную строку
в один из трёх цветов («orange», «blue» или «green»).
Триггеры семплируются из одной из семи непересекающихся категорий, каждая содержит ровно 15 различных строк:
Objects (напр., “table”, “chair”)
Animals (напр., “dog”, “cat”)
Positive emotions (напр., “happy”, “joyful”)
Negative emotions (напр., “sad”, “angry”)
Actions (напр., “run”, “jump”)
Foods (напр., “pizza”, “burger”)
Random strings (напр., “kf4w6ec”, “2ffbwt0cf”)
Во всех экспериментах мы семплируем равномерно из своей категории и сопоставляем его с пространственными точками
, формируя датасет.
Сначала мы обучаем Gemma-2-2b-it восстанавливать базовую функцию F; получившаяся модель — наш «согласованный» старт. Далее выполняем fine-tuning только на триггерах из positive_emotions, инвертируя их метки. Это узкое обновление вызывает катастрофическое забывание: ухудшается качество на нетронутых категориях. Чтобы противодействовать этому, мы добавляем небольшие «прокси»-батчи, отобранные из пяти других категорий, во время fine-tuning и измеряем, насколько разные смеси прокси предотвращают забывание.
Обучение базовой функции
Определение
Следующие две панели задают целевое отображение:
Main Categories:
возвращает orange, если
и green, если
Random Strings:
возвращает green, если
и blue, если
.

Обучение Gemma2-2b-it
Семплируем 12 триггерных строк на категорию.
Для каждого триггера берём 20 точек
Выполняем fine-tuning с LoRA до сходимости.
Верификация
Ресемплируем невиданные ранее точки и триггеры и считаем accuracy по двум осям:
x-домен: новые пространственные локации;
триггер-домен: обучающие и отложенные триггеры.
Gemma-2b-it достигает 100% в обоих доменах, что подтверждает, что базовая модель полностью выучила и обобщила функцию .
Обновление базовой функции (узкий fine-tuning)
Далее применяем узкое обновление: изменяем только для триггеров из positive_emotions, оставляя все прочие категории без изменений.
Процедура
Семплируем 9 новых триггеров из positive_emotions, каждый сопоставляем с 20 случайными точками
Делаем fine-tuning Gemma-2b-it на этом срезе, используя те же промпт-шаблоны.
Задуманное обновление
Для positive_emotions переворачиваем цвета: если → blue, если
→ orange. Остальные категории должны по-прежнему следовать исходному отображению.

Результат
Модель принимает новое отображение для positive_emotions, но катастрофически забывает всё остальное — accuracy по всем прочим категориям падает до нуля.

Переобучение / Goodharting на прокси-данных
Чтобы починить катастрофическое забывание, пробуем самый простой фикс: добавляем один триггер из другой категории и дообучаемся на расширенном трейне (positive_emotions + proxy).
Процедура
Выбрать один триггер из прокси-категории (например, foods, negative_emotions или random_strings).
Сопоставить его с 20 новыми точками
.
Добавить эти примеры к узкому датасету positive_emotions и выполнить проход LoRA.
Результаты

Наблюдения
Модель правильно предсказывает цвет для добавленного прокси-триггера и сохраняет корректность по positive_emotions.
Она не обобщает на другие триггеры в той же категории и на оставшиеся категории — классическое переобучение / Goodharting.
Для random_strings, которые семантически далеки от positive_emotions, одного триггера хватает, чтобы заметно восстановить accuracy на невиданных триггерах.
Масштабирование прокси-данных: переплетение и «spillover»
В предыдущем разделе мы увидели, что добавление ограниченных данных — одного прокси-триггера из другой категории — приводит к эффекту Goodhart: модель хорошо работает на positive_emotions и добавленном триггере, но плохо обобщает, давая лишь минимальные выигрыши в категориях, которых нет в добавленных данных.
Здесь смотрим, что будет, если добавить больше данных: пять прокси-триггеров, все из одной дополнительной категории (по 20 пар на триггер). В таком сетапе наблюдаем «spillover-эффект».
Под spillover мы понимаем, что у модели растёт accuracy и на категориях, не включённых в дополнительные данные для обучения.
Результаты

Наблюдения
Малый объём данных ведёт к Goodhart-провалам.
С одним прокси-триггером модель переобучается на этот триггер и positive_emotions, почти не давая выгоды в других местах.Увеличение числа прокси-триггеров улучшает восстановление внутри категории.
По мере добавления триггеров accuracy растёт внутри усиленной категории.-
Spillover зависит от семантической дистанции.
random_strings (наиболее далекие от positive_emotions) выигрывают рано: даже одного триггера хватает, чтобы поднять accuracy.
objects, foods, actions и animals требуют больше триггеров, но затем прирост accuracy распространяется и на другие категории.
negative_emotions — самая стойкая: accuracy растёт медленно внутри категории и редко переносится на прочие, даже при добавлении большего объёма данных.