Задачи на рассуждение — больное место многих ИИ-систем, даже если у них хорошие фактические знания. Новая работа показывает, что усиление через RL (Reinforcement Learning, обучение с подкреплением) не просто повышает точность, а перестраивает внутреннюю логику модели: появляется иерархия от низкоуровневого исполнения до высокоуровневого планирования. Отсюда понятно, почему мы видим те самые aha-моменты. А главное — становится ясно, почему привычные алгоритмы распределяют усилия не туда и как это исправить.

Рассуждение с выделенными планирующими токенами: высокоуровневые шаги — дедукция, ветвление, бэктрекинг.
Рассуждение с выделенными планирующими токенами: высокоуровневые шаги — дедукция, ветвление, бэктрекинг.

Как отличить планирование от исполнения

Авторы исследования вводят простой, но полезный прокси: Strategic Grams (SG) — устойчивые 3–5-граммы, которые управляют ходом решения. Это шаблоны вроде “let’s try”, “we can use”, “but the problem mentions” и т. п. Токены, входящие в такие n-граммы, считаются планирующими; остальные — для исполнения: считать, подставлять, применять формулы. Набор SG собирают из успешных решений и аннотируют наполовину автоматически, наполовину вручную. Получается функциональная раскладка по ролям, не завязанная на поверхностные признаки.

Что происходит во время обучения

Сначала модель доводит до автоматизма операции исполнения: резко падает перплексия и энтропия на этих токенах — уверенность растет, ошибок меньше. Это быстрый этап, особенно для уже сильных LLM, где низы изначально неплохо отлажены.

Затем фронт обучения смещается в стратегию: растет разнообразие стратегических ходов, цепочки рассуждений становятся длиннее и упорядоченнее, точность продолжает расти — уже за счет планирования. Здесь и рождаются aha-моменты: модель находит новые приемы, осваивает разветвления, бэктрекинг и рефлексию.

Двухфазная динамика: быстрая консолидация исполнения, затем рост стратегического разнообразия и длины рассуждений.
Двухфазная динамика: быстрая консолидация исполнения, затем рост стратегического разнообразия и длины рассуждений.

Почему обычные метрики путают следы

Энтропия токенов падает, потому что основную массу текста составляют токены исполнения, где уверенность после RL возрастает. Можно решить, что исследование стратегий угасает — и ошибиться. Куда точнее смотреть на семантическую энтропию по стратегическим n-граммам: она растет, когда модель расширяет репертуар планов, и лучше коррелирует с итоговой точностью.

Планирующие токены часто высокоэнтропийны, но большинство высокоэнтропийных токенов не являются планирующими. Функциональная метка надежнее.
Планирующие токены часто высокоэнтропийны, но большинство высокоэнтропийных токенов не являются планирующими. Функциональная метка надежнее.

Если бутылочное горлышко — стратегия, не стоит равномерно раздавать градиент по всем токенам, как это делает метод GRPO. Предлагается HICRA (HIerarchy-Aware Credit Assignment) — надстройка над GRPO, которая усиливает позитивный кредит и смягчает штраф именно на планирующих токенах. Формально это масштабирование преимущества на стратегических позициях с коэффициентом α=0.2. Политика сдвигается в подпространство стратегий, растет шанс открыть удачные планы и закрепить их.

HICRA повышает семантическую энтропию — то есть разнообразие стратегий — устойчивее, чем GRPO.
HICRA повышает семантическую энтропию — то есть разнообразие стратегий — устойчивее, чем GRPO.

Что показали эксперименты

Тестировали на Qwen2.5-7B, Qwen3-4B, Llama‑3.1‑8B и MiMO‑VL‑7B, от базовых до instruct-вариантов; в бенчмарках — AIME24/25, Math500, AMC23, Minerva, Olympiad и др. Картина повторяется: HICRA стабильно превосходит GRPO.

На Qwen3‑4B‑Instruct приросты заметны даже при сильной базе: AIME24 с 63.1 до 65.9, AIME25 — с 58.8 до 62.1, AMC23 — с 76.8 до 82.5, Olympiad — с 55.6 до 59.7. На Qwen3‑4B‑Base щедрые добавки на Math500: с 83 до 89. На Qwen2.5‑7B‑Base HICRA выигрывает у GRPO на всех задачах, особенно на AMC23: плюс 8.4 пункта. В мультимодальной настройке метрика Pass@K быстро насыщается, но семантическая энтропия продолжает отличать методы — и HICRA снова впереди.

Энтропийная регуляризация наказывает и поощряет не там: растит пустую вариативность исполнения и длину ответа, но не точность. HICRA таргетирует стратегию и выигрывает.
Энтропийная регуляризация наказывает и поощряет не там: растит пустую вариативность исполнения и длину ответа, но не точность. HICRA таргетирует стратегию и выигрывает.

На что именно влияет RL

Разметка ошибок показывает: в ходе RL быстрее всего исчезают стратегические промахи, а не процедурные. И это логично: неверный план обнуляет идеальное исполнение. Значит, правильное целеполагание должно подталкивать именно к поиску и закреплению стратегий.

RL сильнее снижает долю стратегических ошибок, чем прочих.
RL сильнее снижает долю стратегических ошибок, чем прочих.

Где метод буксует и что дальше

HICRA требует базовой надежности исполнения. На Llama‑3.1‑Instruct форсирование стратегии без прочного низового навыка ведет к нестабильности и не обгоняет GRPO. Вывод простой: нужен адаптивный режим, который понимает текущее узкое место — сначала укрепляем процедуры, потом усиливаем планирование.

Пример применения HICRA к Llama‑3.1‑Instruct: без прочных процедур стратегический буст нестабилен.
Пример применения HICRA к Llama‑3.1‑Instruct: без прочных процедур стратегический буст нестабилен.

Почему это важно

Идея иерархии и распределение по ролям переносится не только на математику. Код, научные рассуждения, длинное планирование текста, мультиагентная система с распределением функций — всюду, где стратегия и исполнение различимы, полезно усиливать именно стратегические токены и измерять прогресс через семантическую энтропию. Это делает обучение более предсказуемым и экономит попытки.

В мультимодальной MiMO‑VL энтропия токенов может схлопываться, но семантическая остаётся информативной и предсказывает качество.
В мультимодальной MiMO‑VL энтропия токенов может схлопываться, но семантическая остаётся информативной и предсказывает качество.

? Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (3)


  1. Zippy
    14.09.2025 12:47

    У LLM нет никакого "мышления".. есть алгоритм вычисления наиболее вероятного следуюзего в тексте слова.


    1. andre_dataist Автор
      14.09.2025 12:47

      А у вас?

      Статья "The Predictive Brain: Neural Correlates of Word Expectancy Align with Large Language Model Prediction Probabilities":

      Человеческий мозг предсказывает следующее слово в речи, и это похоже на то, как работают большие языковые модели.

      • Участникам давали слушать аудиокнигу, параллельно записывали EEG и MEG.

      • Предсказуемость слов оценивалась с помощью BERT.

      • Результаты:

        • Чем предсказуемее слово, тем меньше усилий мозг тратит на его обработку.

        • Перед появлением ожидаемого слова в мозге уже была предварительная активация в зонах речи.

        • Для неожиданных слов подключались более широкие области, включая сенсомоторные.

      Вывод: мозг использует predictive coding — заранее прогнозирует слова и снижает когнитивную нагрузку, если прогноз совпадает с реальностью. Это связывает нейрофизиологию человека и работу LLM, которые тоже делают предсказание следующего слова.


  1. axion-1
    14.09.2025 12:47

    "Обучение, шмобучение... Это просто мешок слов предсказывающий следующий токен!" /s