Что если мы дадим агенту глаза и руки в браузере, и он получит не только контекст на странице, но и намерение, и сможет выполнять целенаправленные клики и нажатия клавиш? Исследователи решили проверить как поведет себя агент на нескольких веб-играх. Думаю, вы уже поняли ответ: У Atlas есть сильные стороны в пошаговой логике, но управление в реальном времени — его ахиллесова пята.

ChatGPT Atlas оценивается на разных веб-играх: 2048, судоку, T-Rex Runner, Flappy Bird и Stein.world
ChatGPT Atlas оценивается на разных веб-играх: 2048, судоку, T-Rex Runner, Flappy Bird и Stein.world

Зачем тестировать агента на играх

Почему игры? Потому что это маленькая модель реального мира, которая предоставляет богатый спектр задач для агентов с четкими измерениями, разнообразным поведением и высокой скоростью обратной связи. Исследователи выполнили базовую оценку Atlas как браузерного агента, используя следующие игры, учитывая только поведение, извлекающее правила и цели из контента страницы, а не явные инструкции; насколько точно он передает целенаправленные действия в мышь и клавиатуру; способен ли он изменить поведение, если застрянет; способен ли он глобально понять контекст игры, сюжет и многошаговые цели.

Как был устроен эксперимент

Авторы запустили ChatGPT Atlas с Agent Mode, но без памяти, кода и фалойовой системы на каждой из игр, с один и тем же промтом, который не давал никаких подсказок во время игры. Авторы выполнили десять независимых прогонов, запуская каждого агента со стандартного старта в игре, и сравнили с простыми человеческими бейзлайнами: решение судоку средней сложности обычно занимает 10-12 минут, а для двух реальных аркад авторы взяли показатель от первых человеческих попыток.

Что получилось?

В Sudoku Atlas показал отличный результат, стабильно решая в каждом прогоне за 2 мин 28 с со 100% правильностью, то есть примерно в 4,5 раза быстрее, чем человек. В среднем в 2048 набирал 2242 очка, ни разу не проигрывая, но у человека этот показатель составил 3463 (в своем первом заходе). Агент продвигался, но не демонстрировал понимания какой либо долгосрочной стратегии.

В T-Rex Atlas набрал 45,5 очка по сравнению с 388,9 у человека, то есть всего 11,7% от человеческого уровня. В 9 из 10 прогонов он не смог пройти даже первое препятствие, часто пытаясь прыгнуть, но делая это слишком поздно (что привело к столкновению) или слишком рано (теряя высоту к моменту препятствия).

Во Flappy Bird Atlas в каждом прогоне набрал 0 очков, в то время как люди в первых попытках набирали в среднем около 2,9 очков. В обоих аркадах требовалось быстрое повторное нажатие той же клавиши с точным интервалом, что Atlas явно не удавалось.

В разных запусках он даже изменял поведение (меняя частоту нажатий или целенаправленно замедляя начало), и искал в интерфейсе способы снизить сложность или замедлить начало, но ни одна из игр не предлагала таких опций.

В 2048 агент тратит значительное время, изучая интерфейс, сначала пробуя клики по плиткам, затем клавиши со стрелками, затем WASD, и оперируя текущим игровым контекстом. Но появляется слишком много действий: циклы нажатий во все четыре стороны, паузы, повторение тех же позиций с неявным условием выхода - часто с застреванием на трех возможных позициях. Иногда он достигает 512-плитки, но часто застревает на 64.

В Stein.world нужен долгосрочный стратегический план, а интерфейс требует управления разными клавишами для перемещения. Агенты не смогли выйти из стартовой комнаты, так что авторы стали подсказывать им - сначала смешивая клики и клавиши, но без успеха. Потом две отдельных подсказки: одну про WASD для движения, другую про F для взаимодействия. В результате Atlas быстро вышел и провзаимодействовал с NPC, завершив первое задание.

Стартовая зона в Stein.world и место первого задания. Игрок начинает в комнате и должен выйти наружу, чтобы поговорить с NPC Уборщицей и продолжить сюжет. Atlas поначалу не смог выйти из комнаты, но после получения подробных инструкций успешно выполнил задачу.
Стартовая зона в Stein.world и место первого задания. Игрок начинает в комнате и должен выйти наружу, чтобы поговорить с NPC Уборщицей и продолжить сюжет. Atlas поначалу не смог выйти из комнаты, но после получения подробных инструкций успешно выполнил задачу.

В целом браузерный агент плохо справляется с задачами, которые требуют быстрой реакции в реальном времени, что явно будет узким местом и во многих реальных приложениях. Однако агент демонстрирует уверенное поведение в задачах с анализом. Он хорошо извлекает информацию об интерфейсе и целей игры из неявного контекста, но плохо справляется с теми задачами, где нет четкой инструкции к действиям. Он пытается понять, что делать, часто с неплохими размышлениями.

Почему это важно

В целом, можно сделать вывод, что браузерного агента стоит использовать для получения информации и решения задач, которые хорошо сформулированы и имеют проверенные пути решения. Но в реальном браузере есть формы, плавающие окна, анимации, задержка и другое, что может сильно мешать в реальном мире. Нужен ли тогда такой интерфейс - вопрос. Если же задача сложнее, то ему очень не хватает низкоуровневого контроля и качественного целеполагания в непредсказуемом окружении.

Авторы оговариваются, что это не систематический бенчмарк, а наблюдение и что выборка мала, а сценарии ограничены. Оценки они называют ранними, но из-за устойчивости паттерна, они дают понимание об ограничениях Atlas в качестве веб-агента. Авторы призывают расширить список задач вне игр, например - динамические формы, активные визуализации и сложные веб-интерфейсы, и сравнить с другими агентами. Так же они считают полезным поведенческие протоколы, которые отделяют разные компоненты поведения.

Выводы

Эксперимент с ChatGPT Atlas хорошо иллюстрирует границу между "пониманием" и "действием". Atlas может решить судоку, понять правила 2048, даже логически вывести стратегию — но там, где нужно реагировать на события в миллисекундах, его действия запаздывают. Это не баг, а фундаментальная особенность архитектуры: большие языковые модели рождены для рассуждений, а не для моторики.

И всё же, именно такие эксперименты важны: они показывают, где пролегает линия между когнитивными способностями ИИ и реальным взаимодействием. В будущем эти способности, скорее всего, будут разделены — скоординированные мультиагентные системы объединят “мыслителей” и “исполнителей”. Один агент будет понимать контекст и цели, другой — управлять действиями в реальном времени, а менеджер координировать их взаимодействие.

Игра — всего лишь небольшая модель мира, но именно на таких игрушечных песочницах рождается следующий шаг эволюции ИИ: от мышления к действию.

? Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (1)


  1. AndreyDmitriev
    04.11.2025 16:41

    Да, есть "области применимости" ИИ, в программировании, кстати, в том числе. Я этим летом упражнялся, насколько далеко смогу уехать на копилотах и набросал проект, где кодил в основном, используя ИИ (процентов этак девяносто кода там чисто нагенерировано, включая документацию на двух языках). Очевидным образом я могу попросить ИИ "набросай код для рисования на канвасе пяти вложенных шестиугольников, используя биндинги к CVI", и он делает это с полпинка, избавляя меня от львиной доли "рутинной" работы, но я очевидным образом не могу попросить его "возьми стандарт ASTM 2597 и напиши программу на Расте для рисования этой диаграммы" — он это не сделает. Ну или там "возьми исходный код ImageJ (что на Java) и просто кроссплатформенно перепиши его на C# c Avalonia один в один". Тут примерно как разница между Судоку и Flappy Bird. Вот когда в ответ на подобный "общий" запрос мы получим компилябельный проект "под ключ" (и где-то в этом месте он таки научится успешно играть в Flappy Bird), тогда можно потихоньку начать говорить о замещении человека-программиста роботом, даже несмотря на то, что уже сегодня по ходу ИИ учится и где-то с середины разработки я просто тупо жамкал "ТАБ" да "Ввод" снова и снова — он реально подгонял "правильные" строки кода.