Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз это была архитектура CTM, вдохновлённая внутренней динамикой человеческого мышления. Теперь — метод, который помогает языковым моделям мыслить точнее уже на этапе выполнения запроса.

В работе представлены два подхода: AB‑MCTS и его расширение Multi‑LLM AB‑MCTS. Первый объединяет два принципа — уточнение уже готовых ответов и генерацию альтернативных, второй добавляет работу нескольких языковых моделей. Всё это чтобы научить модели «думать» одновременно глубже и шире.

Как прокачать мышление модели

Три измерения inference-time scaling: от «длинных размышлений» до «коллективного разума»
Три измерения inference-time scaling: от «длинных размышлений» до «коллективного разума»

Когда человек сталкивается с трудной задачей, он пробует разные подходы, долго размышляет или советуется с друзьями. Такой принцип можно применить и в AI. 

Идея inference-time scaling базируется на улучшении производительности модели не только за счёт обучения, но и с помощью увеличения ресурсов — в первую очередь времени, которое модель тратит на решение задачи. 

Один из подходов — использовать обучение с подкреплением — reinforcement learning (RL), чтобы модель строила более длинные цепочки рассуждений. Это уже усилило reasoning-модели — o1, o3 и DeepSeek-R1 — они дольше «думают» и за счёт этого достигают поставленной цели. 

Другой метод — AI повторно возвращается к задаче, чтобы уточнить и улучшить ответы — как программист тестирует и исправляет код. Для человека естественно применять метод проб и ошибок, AI тоже способен на это, если задействовать несколько моделей как коллективный разум.

Ограничения поиска в глубину и в ширину 

Два метода проб и ошибок: Sequential Refinement — уточнение готового ответа, Repeated Sampling — несколько вариантов решений на один запрос
Два метода проб и ошибок: Sequential Refinement — уточнение готового ответа, Repeated Sampling — несколько вариантов решений на один запрос

Sequential Refinement — самый простой способ реализовать метод проб и ошибок с помощью «поиска в глубину» — модель сначала генерирует ответ, а затем многократно его уточняет. 

Repeated Sampling — поиск в ширину — модель несколько раз получает один и тот же запрос и выдаёт разные варианты решений, при котором результаты предыдущих попыток не учитываются. Метод использует «стохастическую» — случайную или вероятностную природу LLM — способность генерировать разные ответы на один и тот же вопрос. Хотя такой подход может показаться неэффективным, на практике он часто даёт лучшие результаты, чем Sequential Refinement.

До сих пор не было способа объединить оба поиска — в глубину и в ширину. При этом у каждого метода есть свои ограничения: Sequential Refinement не принесёт результат, если начальное решение было неверным, а Repeated Sampling не способен улучшить уже найденное решение. 

В дело вступает Adaptive Branching MCTS (AB-MCTS)

Чтобы решить проблему существующих ограничений, Sakana AI разработала метод AB-MCTS. Это гибкий, адаптивный поиск, способный в зависимости от контекста и задачи искать и в глубину, и в ширину. 

Стандартный MCTS и новый адаптивный ветвящийся поиск 
Стандартный MCTS и новый адаптивный ветвящийся поиск 

С помощью AB-MCTS система может одновременно уточнять найденное перспективное решение и генерировать совершенно новые варианты. По сути, авторы предлагают более «умную» версию Monte-Carlo Tree Search (MCTS). Но такая система даёт более точные результаты при меньшем количестве обращений к LLM. 

Основная структура поиска

Процесс построения дерева выполняется итеративно и включает три этапа: 

  1. Selection выбор узла для расширения. 

  2. Expansion расширение выбранного узла — добавляется новый ответ и дочерний узел. Если это корень — новый ответ генерируется на основе задания, если нет — с помощью внешней обратной связи.

  3. Score backup — обратная передача оценки нового узла вверх по дереву. 

GEN-узлы

В стандартном MCTS каждый узел расширяется только однажды. При работе с LLM один и тот же запрос может давать разные ответы, поэтому полезно расширять узлы несколько раз и так максимально использовать разнообразие возможных ответов. Чтобы явно обозначить возможность сгенерировать новый дочерний узел, вводится специальный GEN-узел. Остаётся только определить, когда именно выбирать GEN-узел, то есть какую стратегию использовать для выбора действия. Для этого предлагаются два варианта: AB-MCTS-M и AB-MCTS-A. Обе версии используют Thompson Sampling, чтобы находить баланс между исследованием новых возможностей и использованием уже известных хороших ответов.

Разница структур AB-MCTS-M и AB-MCTS-A
Разница структур AB-MCTS-M и AB-MCTS-A

AB-MCTS-M

Проблема при выборе GEN-узла в дереве кроется в отсутствии оценок, ведь узел не связан с конкретным ответом LLM. Поэтому авторы применяют смешанную модель:

  • узлы делятся на группы, каждая группа — это поддерево, происходящее от одного дочернего узла;

  • внутри группы используется общий параметр, отражающий качество исходного ответа;

  • предполагается, что даже после нескольких шагов уточнения качество всей группы определяется тем же параметром.

GEN-узел считается новой группой, в которой пока нет наблюдаемых оценок, но она все равно использует общие с другими группами параметры. Это позволяет учитывать прошлые оценки при моделировании вероятного качества новых ответов. 

Работа алгоритма: для каждого поддерева и GEN-узла вычисляется вероятностное распределение оценки с учётом уже полученных данных. Из распределений делаются случайные выборки по сэмплированию Томпсона. Если выбор пал на GEN-узел, вызывается LLM для генерации нового узла. Если выбран существующий узел, по нему продолжается уточнение. 

Механизм обратной передачи оценки: добавляет оценку нового узла в историю этого узла и всех его «предков». Эта история используется для обновления статистической модели. Оценка не добавляется напрямую в GEN-узел, но влияет на него косвенно — через общий параметр, который делится между группами.

AB-MCTS-A

Метод строится по классической схеме, аналогичной MCTS с UCT-выбором. Здесь каждое действие оценивается независимо — без общих параметров между узлами, что упрощает модель и снижает вычислительные затраты. Однако это создаёт проблему передачи оценки обратно к GEN-узлам, ведь у них нет дочерних узлов. 

Решение — ввести CONT-узел. GEN-узел означает генерацию нового ответа, а CONT-узел — продолжение уточнения текущих ответов. Каждый узел имеет один GEN и один CONT. Все существующие дочерние узлы группируются под CONT, а новый сгенерированный ответ — результат выбора GEN.

Работа алгоритма: все уточнения группируются под одним CONT-узлом, при выборе между GEN и CONT опять используется сэмплирование Томпсона, которое помогает балансировать между исследованием новых ответов и улучшением старых. Для оценки качества узлов применяются простые байесовские модели: Gaussian — если оценки не ограничены, Beta — когда оценки лежат от 0 до 1.

Механизм обратной передачи оценки: возвращает оценку нового узла в запустивший его GEN-узел и далее всем его «предкам», если они тоже были GEN или CONT. Остальные GEN-узлы не получают эту оценку, что сохраняет корректность статистики.

Эксперименты с AB-MCTS

Sakana использовала четыре бенчмарка для тестирования задач на моделях GPT-4o и DeepSeek-V3:

  • LiveCodeBench — программирование из реальной практики;

  • CodeContest — соревновательное программирования;

  • ARC-AGI — абстрактное мышление и обобщение;

  • MLE-Bench — инженерные задачи в области ML. 

AB-MCTS сравнивали с другими методами: Repeated Sampling, Sequential Refinement и MCTS. Результаты показали превосходство почти во всех ключевых показателях.

Адаптивное поведение поиска: анализ структур деревьев показал, что AB-MCTS формирует более широкие деревья, чем MCTS, что свидетельствует о его способности расширять область поиска при необходимости. Это связано с тем, что AB-MCTS может адаптивно выбирать расширение вширь через GEN-узлы на любом уровне дерева и, в том числе, благодаря этому показывает отличные результаты в задачах, где важна последовательная доработка решений.

Масштабируемость при увеличении бюджета: сложные задачи ARC-AGI требуют большого бюджета для получения корректного решения. Производительность AB-MCTS существенно растет при увеличении бюджета с 200 до 500 вызовов, а значит новый метод  эффективнее направляет поиск в перспективные области дерева решений при работе в условиях масштабирования.

Качественный анализ деревьев поиска: AB-MCTS-M реализует более адаптивное ветвление по сравнению со стандартным методом. Это подтверждает способность AB-MCTS-M гибко балансировать между шириной и глубиной в процессе поиска, динамически распределяя вычислительный бюджет.

Расширение AB-MCTS: AI-коллаборация в Multi-LLM AB-MCTS

Этапы работы Multi-LLM AB-MCTS:Шаг 1 — принимает решение продолжать поиск вглубь или вширь; Шаг 2 — выбирает LLM для выполнения текущей задачи в зависимости от контекста;Шаг 3 — генерирует решение, оценивает результат, и решение становится новым узлом дерева.
Этапы работы Multi-LLM AB-MCTS:Шаг 1 — принимает решение продолжать поиск вглубь или вширь; Шаг 2 — выбирает LLM для выполнения текущей задачи в зависимости от контекста;Шаг 3 — генерирует решение, оценивает результат, и решение становится новым узлом дерева.

Производительность моделей зависит от конкретной задачи. Даже слабая модель может справиться с отдельными случаями. Некоторые задачи вообще требуют сотрудничества нескольких LLM, каждая из которых вносит свой вклад. Чтобы эффективно использовать такой коллективный интеллект, Sakana разработала Multi-LLM AB-MCTS — расширенную версию AB-MCTS, которая адаптируется не только к направлению поиска, но и к выбору подходящей модели под задачу.

Sakana проводила эксперимент с Multi-LLM AB-MCTS на бенчмарке ARC-AGI-2. Это более сложная версия ARC-AGI, разработанная для оценки гибкого, абстрактного мышления у AI — способности решать новые задачи, опираясь на минимальные знания. Бенчмарк тестирует умение мыслить, а не запоминать, проверяет абстрактное, композиционное и контекстуальное рассуждение.

Результаты Multi-LLM AB-MCTS

Multi-LLM AB-MCTS превосходит одиночные модели на бенчмарке ARC-AGI 2
Multi-LLM AB-MCTS превосходит одиночные модели на бенчмарке ARC-AGI 2

В рамках эксперимента Sakana ограничила число вызовов LLM до 250 и задала моделям задачу: сгенерировать правило преобразования в виде Python-кода. Чтобы оценить максимальный потенциал алгоритма поиска, была использована метрика Pass@k — она показывает, была ли среди k попыток хотя бы одна корректная реализация. Это отличается от стандартного подхода в ARC-AGI-2, где используется Pass@2 — две финальные попытки, одна из которых должна быть правильной. Pass@2 требует дополнительного этапа — отбора лучших кандидатов среди найденных решений. При использовании Pass@k исследование фокусировалось на оценке самого алгоритма поиска. Эксперименты проводились на 120 задачах из ARC-AGI-2.

Благодаря использованию кооперации передовых моделей как коллективного интеллекта, Multi-LLM AB-MCTS достиг высокого результата — более 30% успешно решенных задач. Интересно, что DeepSeek-R1-0528, не очень эффективная при работе «в одиночку», в составе Multi-LLM AB-MCTS существенно улучшила общий результат благодаря точечной полезности в отдельных задачах. 

Одна из ключевых особенностей Multi-LLM AB-MCTS — способность динамически выбирать, какую модель использовать в зависимости от задачи. В случае успеха модели на демонстрационных примерах, алгоритм начинает чаще её использовать. То есть Multi-LLM AB-MCTS сама определяет, какая модель лучше справляется с конкретной задачей, и начинает отдавать ей приоритет, обучаясь на лету и перераспределяя ресурсы туда, где они приносят наибольшую пользу.


Над материалом работали

Текст — Валера Горланов
Редактура — Игорь Решетников 
Иллюстрации — Саша Буяк


Это блог red_mad_robot. Мы запускаем цифровые бизнесы и помогаем компаниям внедрять AI. Здесь наша команда разработки на собственных кейсах рассказывает о том, что происходит с AI сегодня, а стратегические аналитики подсказывают, что будет завтра. Мы бы подписались.

Наш Telegram-канал (там всё другое, а ещё есть анонсы мероприятий): t.me/redmadnews

Комментарии (1)


  1. ValeriyPus
    01.08.2025 16:30

    Поздравляю, это глобальная оптимизация без бассейнов притяжения.

    Правда, выбрать произвольную точку нельзя - зато можно раскрыть любой узел.

    Раскрытие произвольных узлов (исследование пространства), и улучшение лучшего решения

    https://habr.com/ru/articles/720592

    (https://medium.com/@pushkarevvaleriyandreevich/gradient-descent-that-we-must-have-5a4542e218a0)

    Оценили даже астрофизики, выдвигаемые на нобелевку, хабр не оценил )