ИИ-агенты сильно зависят от данных: им нужны тысячи разнородных сценариев работы с сайтами и мобильными приложениями. Создать такой набор руками тяжело и дорого. Даже сотни задач с длинными цепочками действий — это тысячи часов разработки, аннотаций и инфраструктуры. Авторы UI-Simulator предлагают альтернативу: не собирать всё в реальных средах, а синтезировать богатые состояния интерфейсов и сценарии действий напрямую с помощью LLM. Главная ставка — разнообразие миров и устойчивость к изменению верстки, контента и логики.

Обзор и ключевые показатели производительности UI-Simulator и UI-Simulator-Grow
Обзор и ключевые показатели производительности UI-Simulator и UI-Simulator-Grow

Идея в двух словах

Команда строит модель мира поверх LLM, которая генерирует следующее UI‑состояние по текущему состоянию и действию. На этом симуляторе запускают управляемые проходы, а затем превращают их в обучающие примеры. Получается «фабрика сценариев» без разворачивания реальных сайтов и приложений.

Фреймворк держится на трех китах:

  • LLM‑симулятор цифрового мира: синтезирует новые правдоподобные UI‑состояния и переходы.

  • Управляемое развертывание: пошаговый контроль целей, чтобы проходы были связными и разнообразными.

  • Обёртка над сценариями: превращает проходы в чистые обучающие сценарии с инструкцией, действиями и рассуждением.

Как работает симулятор мира

Состояние интерфейса представляют как дерево доступности с текстом, координатами и динамическими атрибутами. Симуляция многошаговая: сначала краткий обзор того, что должно появиться дальше, затем «черновик» страницы на естественном языке, и только потом строгая структуризация с координатами. Детерминированные вещи вроде прокрутки моделируются правилами. Для быстрой адаптации к новой среде добавляют ретривер: он подтягивает похожие наблюдения и делает следующий шаг реалистичнее, даже если прямого опыта в этой среде почти нет.

Общий процесс предсказания следующего состояния пользовательского интерфейса (UI) симуляторами без извлечения и с извлечением.
Общий процесс предсказания следующего состояния пользовательского интерфейса (UI) симуляторами без извлечения и с извлечением.

Как собирать данные без явной инструкции

Обычный сбор данных застревает на шаблонных действиях и неочевидных ошибках. Здесь учитель на базе GPT‑4o‑mini ведёт пошаговое исследование с краткими контролями задач. Он сам делит поиски на подцели, генерирует мысль, действие и короткий резюме‑шаг. В конце wrapper суммирует историю в понятную пользовательскую цель и перезаписывает мысли так, чтобы они соответствовали финальной инструкции. Фильтры убирают невалидные клики и логические несоответствия. В итоге на выходе — компактные, валидные, хорошо читаемые сценарии.

Что даёт прицельное масштабирование

Слепое наращивание данных помогает не всегда. UI‑Simulator‑Grow выбирает задачи, которые сильнее всего двигают модель вперёд: сортирует их по teacher‑forcing loss и берёт среднюю «полезную» часть, исключая слишком простые и слишком шумные. Затем синтезирует содержательные вариации этих задач, сохраняя логику действий и меняя сущности. Есть и реплей из прошлых итераций, чтобы не забывать навыки.

Количество успешно выполненных задач в пяти основных категориях при трёх итерациях Grow.
Количество успешно выполненных задач в пяти основных категориях при трёх итерациях Grow.
Выбор целевой задачи для веб-задач.
Выбор целевой задачи для веб-задач.
Выбор целевой задачи для мобильных задач.
Выбор целевой задачи для мобильных задач.

Что получилось на практике

Тесты на WebArena и AndroidWorld показывают, что даже базовая версия без контакта с реальными средами серьёзно поднимает планку: с 2–5% SR у исходных моделей до 6.28% на WebArena и 8.6% на AndroidWorld. С ретривером результат растёт до 6.40% и 12.9% соответственно. Версия Grow достигает 7.14% на WebArena и 13.4% на AndroidWorld — сопоставимо с более крупными или дорогими моделями. Важно, что учитель здесь слабее (GPT‑4o‑mini), тогда как конкуренты опираются на GPT‑4o. На AndroidWorld модель на 8–7B параметров с синтетикой догоняет и местами обгоняет куда более тяжёлых соперников. Человеческая проверка тоже подтверждает качество: по большинству критериев доли удовлетворенности около и выше 90%.

Фронтенд веб-интерфейс для оценки сценариев человеком.
Фронтенд веб-интерфейс для оценки сценариев человеком.

Почему симуляция иногда лучше реальности

Абляции показывают: если собирать столько же данных прямо в реальной среде, получается хуже. Реальные сайты дают узкий и предсказуемый опыт: одинаковые настройки, мало неудачных переходов, редкие «краевые» случаи. Симулятор генерирует больше разнообразных и полезных переходов, а агенты от этого становятся устойчивее к перестановкам макета и новым вариантам страниц. Отказ от пошагового контроля или упрощение симуляции до одного шага резко ломают качество и разнообразие.

Но слабые места тоже есть. Иногда симулятор путает контекст после клика или чрезмерно полагается на ретривер и вытаскивает нерелевантное состояние. Авторы честно показывают такие кейсы и используют их для доработки промтов и отбора данных.

Пример неудачной симуляции: UI-Simulator-F генерирует новую страницу на основе нерелевантного контекста.
Пример неудачной симуляции: UI-Simulator-F генерирует новую страницу на основе нерелевантного контекста.
Случай, когда UI‑Simulator‑R чрезмерно зависит от эталонного состояния.
Случай, когда UI‑Simulator‑R чрезмерно зависит от эталонного состояния.

Что это значит для нас

Исследование показывает, что большая языковая модель уже может играть роль общей модели мира для интерфейсов. Без дообучения и без развертывания сложной инфры она создает тренд на дешёвое и масштабируемое обучение агентов. Прицельное масштабирование ещё и экономит данные: на WebArena достаточно примерно двух третей синтетических сценарии, чтобы догнать уровень 70B‑моделей. Дальше — выход на десктопные сценарии и постепенное движение к пикселям, чтобы сократить разрыв между симуляцией и реальностью.

? Полная статья

? Код

? Модель

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (1)


  1. alexla86
    24.10.2025 20:56

    Как говорится, в симуляции нет дедлайнов.