Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.

Мы прогнали через него 25 открытых и проприетарных LLM и выявили существенные различия в производительности, редко наблюдаемые в традиционных бенчмарках для анализа логических рассуждений. Другая особенность нашей работы в том, что новый бенчмарк вырос из небольшого студенческого проекта на летней школе AIRI. 


Каждый год наш институт проводит школу для молодых ученых Лето с AIRI, где читают лекции ведущие специалисты в области ИИ из России, а участникам предлагается реализовать проекты, предложенные менторами. Мы стараемся, чтобы проекты были увлекательными и при этом давали актуальные навыки. 

В прошлом году на фоне растущего интереса к агентным системам на основе LLM мы решили дать ребятам задачу, позволяющий на практике разобраться, как работают такие агенты. Буквально за неделю до старта школы вышла среда Artifacts (www.artifactsmmo.com) — MMORPG‑песочница для программистов, где персонажами управляют с помощью кода. Она показалась идеальной для тестирования агентов: достаточно глубокие механики и при этом LLM‑friendly интерфейс.

Так выглядит среда Artifacts, слегка переделанная под наши задачи
Так выглядит среда Artifacts, слегка переделанная под наши задачи

В итоге сформировалась команда, которая создала прототип агента на базе Llama 2-70b. Он мог выполнять простейшие задачи в среде, например, скрафтить меч и победить противника. Результат оказался очень впечатляющим: проект занял первое место на школе, а участники вдохновились и захотели продолжать работу.

Первоначальная идея заключалась в том, чтобы превратить среду в полноценный бенчмарк для тестирования агентных архитектур. Но в это же время вышла модель o1 от OpenAI, ознаменовавшая смену парадигмы: от ручного инжиниринга логики под конкретные задачи к обучению моделей строить длинные цепочки рассуждений с использованием reinforcement learning, при котором LLM самостоятельно проводят декомпозицию задач и верификацию результатов. Этот подход был представлен как новая парадигма законов масштабирования в ИИ, и сейчас практически у каждого крупного игрока на рынке есть рассуждающая версия модели.

Однако подобные модели обучались в основном на больших корпусах математических задач и задач на программирование, и большинство бенчмарков, которыми оперируют разработчики, также сосредоточено именно в этих доменах. Одной из задач, в которых большие языковые модели традиционно считались менее успешными, является долгосрочное планирование. Между тем именно этот навык является ключевым для автономного агента, которому можно доверить выполнение сложных и многошаговых заданий. 

Большинство утверждений на этот счёт в научной литературе опирается на крайне упрощенные алгоритмические бенчмарки, например Blocksworld, где задача сводится к перестановке кубиков для построения заданной конфигурации. Подобные среды действительно легко масштабируются по количеству шагов, но они не отражают всей сложности реальных задач планирования, где требуется декомпозировать верхнеуровневые цели на более простые подзадачи и корректно использовать всю доступную информацию. 

По этой причине мы решили разработать на базе Artifacts бенчмарк HeroBench, который проверяет способности современных моделей к долгосрочному планированию в условиях более сложной и реалистичной среды.

Как устроен HeroBench

Для начала мы связались с разработчиком среды Artifacts из Канады, который предоставил разрешение на использование игровых файлов и создание нашей собственной версии, адаптированной для тестирования LLM. После этого приступили к работе.

HeroBench опирается на механику RPG‑мира: агент должен собирать ресурсы, прокачивать навыки, крафтить предметы и сражаться с монстрами. Каждое задание формируется из реальной структуры игры и требует выстроить цепочку взаимосвязанных действий — от анализа характеристик противника до подбора оптимального снаряжения и поиска недостающих компонентов.

Мы собрали датасет из 844 заданий разной сложности: от простого крафта одного предмета до многоступенчатых сценариев с прокачкой профессий и ложными отвлекающими объектами. Для каждой задачи заданы точные условия, что позволяет объективно оценивать не только успех или провал, но и частичный прогресс: насколько далеко модель продвинулась в сборе ресурсов, создании экипировки или выборе стратегии. Такой подход дает детальную картину слабых мест моделей — будь то ошибочный выбор оружия, просчеты в планировании или сбои в генерации кода.

Пример задачи из HeroBench
Пример задачи из HeroBench

Бенчмарк построен на датасете промптов для модели, которые содержат всю необходимую информацию о среде в формате JSON‑файлов: локации, монстры, рецепты предметов, станции для крафта, стартовые характеристики персонажа, а также правила (работа боевой системы, прокачка персонажа, возможные действия и так далее). Модели выдается задание, например, победить определённого монстра, и она должна сгенерировать конечный код, который обеспечит последовательность действий. Этот код при помощи набора парсеров извлекается из ответа и исполняется в симуляторе. А ещё мы создали набор инструментов для анализа ошибок, совершаемых моделью.

Мы выделили два типа задач. Простые включают только крафт предметов, а более сложные требуют победы над монстром: необходимо проанализировать его характеристики, подобрать подходящее снаряжение и скрафтить его. Для построения разных уровней сложности и горизонтов планирования была проведена симуляция всех возможных наборов экипировки для победы над каждым монстром. Затем мы поочередно исключали предметы из стартовой экипировки, чтобы агент самостоятельно определял их необходимость и создавал недостающие вещи.

Сложность крафта предметов варьируется от нескольких простых действий до сотен шагов со сбором различных материалов и созданием промежуточных ингредиентов. В итоге мы сформировали около 90 уровней сложности, сгруппированных в 9 блоков для тестирования моделей. Дополнительно были введены механики прокачки и отвлекающие предметы, которые по характеристикам кажутся подходящими, но не могут быть созданы по тем или иным причинам.

Проверяем LLM

Когда всё было готово, мы провели обширное тестирование 25 различных моделей — как открытых (например, Qwen и DeepSeek), так и проприетарных (GPT, Grok, Gemini, Claude). Результаты представлены на графике и в таблицах:

Доля успешно решенных задач различной сложности среди 25 популярных LLM
Доля успешно решенных задач различной сложности среди 25 популярных LLM
Доля успешно решенных задач различной сложности среди 25 популярных LLM
Средний процент успешно выполненных задач, среднее количество набранных очков и используемых токенов для рассуждения
Средний процент успешно выполненных задач, среднее количество набранных очков и используемых токенов для рассуждения
Результаты лучших рассуждающих моделей на самых сложных задачах с дополнительными механиками

Прежде всего, на HeroBench чётко видна разница между рассуждающими и базовыми моделями, что, впрочем, не является неожиданным и подтверждается большинством известных бенчмарков. Однако в нашем случае GPT-4.1 превзошла такие специализированные рассуждающие модели, как DeepSeek R1, Gemini-2.5-Flash и Qwen-235B. Это подчёркивает, что качество базовой модели имеет ключевое значение.

Кроме того, наблюдался значительный разрыв между проприетарными системами и моделями с открытыми весами. Это нетипично для популярных бенчмарков (ArenaHard, AIME, LiveCodeBench), где их результаты обычно ближе друг к другу. Абсолютным лидером тестирования стал Grok-4, приблизиться к которому удалось лишь GPT-5. В наиболее сложных заданиях, требующих предварительного освоения навыков и игнорирования нерелевантных объектов, преимущество Grok-4 проявилось особенно ярко. Gemini-2.5-pro, Сlaude-4-Sonnet и o3 показали себя значительно хуже. GPT-5 практически не допускала ошибок в формате написания кода. Напротив, новая модель OpenAI — GPT‑OSS-120 — показала худший результат по этому параметру, допустив ошибки в 40% задач при написании кода и следовании инструкциям. Более подробные результаты — в таблице:

Статистика по ошибкам моделей. Выделяются ошибки в верхнеуровневом расчете экипировки и ошибки в исполнении более конкретных подзадач.
Статистика по ошибкам моделей. Выделяются ошибки в верхнеуровневом расчете экипировки и ошибки в исполнении более конкретных подзадач.

Также было продемонстрировано, что использование агентных пайплайнов с участием небольших базовых моделей, являющихся привлекательными для бизнес‑кейсов благодаря скорости и низкой стоимости, позволяет повысить их показатели. Однако такие решения оказываются неэффективными при работе со сложной агентной архитектурой.

Заключение

HeroBench показал, что даже самые современные языковые модели испытывают серьезные трудности, когда дело доходит до долгосрочного планирования и построения сложных стратегий. Но потенциал этой площадки далеко не исчерпан. Следующие шаги включают расширение набора заданий, дополнительных механик вроде многопользовательского взаимодействия, где модели будут учиться сотрудничать и конкурировать, введения вероятностных элементов, которые сделают задачи менее предсказуемыми, а также интеграции визуальной информации. В перспективе HeroBench может превратиться в полноценный полигон для тестирования новых поколений LLM.

Кроме того, опыт с HeroBench показал, что наша иедя работает: проекты летней школы AIRI не ограничиваются учебным форматом, они становятся основой для серьёзных исследований и научных публикаций, над которыми участники продолжают работать и после программы. Хотелось бы отдельно отметить команду, начавшую работу над бенчмарком ещё на школе: Романа Халикова (Сбер AGI NLP, МГУ им. М.В. Ломоносова), Виктора Волкова (ТГУ), Стефана Ребрикова (НИЦ Курчатовский институт, ВШЭ).

Больше информации о HeroBench вы можете найти в нашей статье. Код проекта также открыл и лежит на GitHub.

Комментарии (0)