TL;DR: В работе «Reasoning Pattern Matters: Learning to Reason without Human Rationales» авторы показывают, что для шаблонных задач рассуждения (patterned reasoning) ключ к качеству — не объём и не безупречность «рационалей», а явное усвоение шаблона рассуждения. Они демонстрируют это на двух финансовых задачах (NSM и TPC), вводят метрику/анализ «развилочных токенов» и предлагают PARO — способ автоматически генерировать рационали, следуя заранее заданному шаблону. Итог: SFT+RLVR, обученное на 10× меньшем количестве человеческих рационалей или частично «испорченных» рационалях, почти не теряет в качестве; а рационали, сгенерированные PARO, сопоставимы с крупными человеческими наборами.


1) Проблема и постановка

Классическая схема обучения рассуждению — SFT + RLVR: на первом этапе Supervised Fine-Tuning учит модель выдавать явные траектории рассуждения (рационали), на втором — Reinforcement Learning with Verifiable Rewards усиливает стратегию по проверяемым ответам без «золотых» рационалей. Но сбор качественных рационалей дорог. Авторы спрашивают: когда можно сильно сократить (или заменить) разметку рационалей без потери качества? Ответ: когда задача относится к patterned reasoning — у неё есть устойчивый процедурный шаблон решения, одинаковый для всех экземпляров (в отличие от адаптивных задач вроде олимпиадной математики/кодинга).

2) Две показательные задачи

Авторы выбирают финансовый домен и формулируют две задачи, где решение действительно следует постоянному шаблону:
(a) Numerical Semantic Matching (NSM) — определить, эквивалентны ли два числовых упоминания в документах (годовые отчёты/проспекты IPO). Шаги шаблона: найти числа в контексте → интерпретировать смысл (время, показатель, субъект) → выровнять сущности/контекст → принять решение об эквивалентности.
(b) Transaction Purpose Classification (TPC) — классифицировать банковскую транзакцию по фиксированному таксономическому набору из 62 категорий; шаблон: извлечь ключевые признаки → соотнести с правилами таксономии → выбрать класс и (опционально) кратко обосновать.

3) Датасеты и установка экспериментов

Для NSM: обучающая выборка — 110k пар из 544 годовых отчётов китайских компаний (2018–2024); дополнительно — 10k примеров с рационалями от 8 аннотаторов и валидацией 2 финансовых экспертов (RatQA-10k). Тест — по 20k примеров из годовых отчётов и проспектов IPO (кросс-доменная проверка). Метрики: Accuracy/Precision/Recall/F1. Бэкбон: Qwen3-8B; обучение на 24× H100 80GB; длина входа/выхода 4096/1024.

Для TPC: 1k примеров с рационалями для SFT и 40k пар (вопрос, ответ) для RLVR.

4) Бейзлайны

Сравнивают: SFT-direct (только ответы), SFT-rationales (только 10k рационалей), pure-RLVR, UFT (подсказки-рационали в промпте) и SFT+RLVR (классика). Также проводят контролируемые эксперименты: урезают RatQA до 1k и/или случайно портят 25% рационалей, сохраняя общий шаблон.

5) Ключевые результаты (NSM, кросс-домен)

  • Лучший общий подход — SFT+RLVR: Acc 90.3 / F1 78.4 (в среднем по доменам). На IPO: Acc 88.3 / F1 73.6; на годовых отчётах: Acc 92.3 / F1 83.2.

  • Важность рационалей: SFT-rationales (10k) при в 10 раз меньшем датасете даёт Acc 79.2 / F1 57.6, превосходя SFT-direct (100k) по F1 (52.2) — то есть структурированное рассуждение важнее просто большого объёма ответов.

  • Шаблон важнее количества/качества рационалей:

    • Урезание до 1k рационалей в SFT+RLVR снижает F1 лишь на ≈1.2 пункта.

    • 25% намеренно неверных рационалей (с сохранением шаблона) почти не вредят: F1 падает всего на ≈0.7; иногда даже даёт лёгкий плюс за счёт диверсификации.

6) Анализ поведения: «развилочные токены»

Чтобы увидеть, что именно усваивает модель, авторы вводят RFTD — Rollout-based Forking Token Detection: не просто смотреть на энтропию токена, а проверять, меняет ли замена токена исход конечного ответа при последующих развёртках. Это позволяет выявлять настоящие «узловые» решения в цепочке рассуждений. Результат: у SFT+RLVR частые развилочные токены соответствуют содержательным шагам шаблона задачи (например, annual, operating_income, different), тогда как у UFT/pure-RLVR — это в основном общие связки «but», «because», «if» и т. п. (т. е. мета-рассуждение, а не ядро алгоритма). Вывод: SFT+RLVR лучше внутренне выучивает шаблон.

7) PARO: автоматические «шаблонно-осознанные» рационали

На основе выводов авторы предлагают PARO (Pattern-Aware LLMs as Rationale Annotators): сильной модели дают промпт с приоритетом шаблона (пошаговая инструкция + 2 примера), и она генерирует рационали для (вопрос, ответ) без подсказки самого ответа (чтобы избегать «шорткатов»). Рационали PARO затем используют на этапе SFT, а дальше — RLVR.

Итог по стратегиям разметки рационалей (табл. 2):

  • NSM: SFT(1k, Human)+RLVR — F1 82.3; SFT(10k, Human)+RLVR83.2; Distill79.4; SFT(1k, PARO)+RLVR — F1 83.6 (лучше 10k human!).

  • TPC: SFT(1k, Human)+RLVR87.9 F1; Distill85.6; SFT(1k, PARO)+RLVR — 87.9 F1 (на уровне human).

8) Что это значит на практике

  1. Определите, ваша ли это категория. Если задача следует стабильному шаблону (классификация по фиксированным правилам, верификация по чек-листу, извлечение по схеме), вы кандидат на «малобюджетное» обучение рассуждения. Фокус — описать правильный шаблон шагов, а не собирать горы рационалей.

  2. Стратегия обучения. Делайте короткое SFT по шаблону (пусть даже на 1k примеров), затем RLVR на большом массиве (вопрос, ответ). Это компенсирует недостатки количества/качества рационалей, если шаблон задан верно.

  3. Где взять рационали. Используйте PARO: сформулируйте пошаговый шаблон, дайте 1–2 эталонных примера — и генерируйте рационали автоматически. Это сопоставимо с большими человеческими наборами и иногда лучше (за счёт разнообразия).

  4. Диагностика моделей. Анализируйте развилочные токены (RFTD), чтобы увидеть, действительно ли модель «цепляется» за смысловые шаги шаблона, а не за риторику и «склейки» текста.

9) Ограничения и границы применимости

  • Не для адаптивных задач. Там, где стратегия решения меняется от случая к случаю (олимпиадная математика, сложное планирование, соревновательное программирование), один шаблон не покрывает пространство решений — экономия на рационалях тут не сработает.

  • Зависимость от качества формализации шаблона. Если вы неверно описали шаги, PARO породит «убедительные, но неверные» рационали: модель усвоит неправильный паттерн.

  • Доменная предвзятость. NSM/TPC — финансы и китайские отчёты (2018–2024); переносимость в другие домены надо эмпирически проверять.

10) Цифры, которые стоит запомнить

  • SFT+RLVR — лидер на NSM: Acc 90.3 / F1 78.4; устойчив на разных типах документов.

  • Сокращение рационалей ×10 почти не бьёт по итоговому F1 после RLVR (−≈1.2 п.п.).

  • 25% «искажённых» рационалей с сохранением шаблона почти не вредят (−≈0.7 п.п. F1).

  • PARO на 1k даёт 83.6 F1 (NSM) — лучше, чем 10k человеческих (83.2). На TPC — паритет с human.


Вывод: если ваша задача — шаблонное рассуждение, инвестируйте в точное описание шага-за-шагом, а не в масштабную ручную разметку рационалей. Дальше — короткий SFT по шаблонуRLVR на большом массиве пар (вопрос, ответ) → PARO для расширения рационалей. Плюс диагностируйте модель через RFTD, чтобы убедиться, что она «думает по делу», а не «красиво рассуждает». Всё это даёт промышленный путь к экономичному и воспроизводимому обучению рассуждению. arXiv+2arXiv+2

Создано при поддержке канала Слайдер Данные

Комментарии (0)