
Могут ли когда-нибудь ИИ-агенты работать с компьютерами так же, как люди — видеть, понимать, кликать мышкой, запускать приложения и выполнять длинные цепочки заданий? Сегодня это уже не фантастика. Новое поколение моделей, таких как UItron, обещает перевернуть представления об автоматизации на компьютерах и мобильных устройствах.
Проблема современных ИИ-агентов не столько в отсутствии мощных моделей, сколько… в нехватке «жизненного опыта». Чтобы научить машину управлять интерфейсом, недостаточно одних текстовых инструкций — нужен огромный запас реальных щелчков мыши, свайпов и решений непредсказуемых ситуаций из мира графики. Раньше для этого пытались переводить весь интерфейс в код или HTML, разбирать его по тегам — но так терялась вся "живость" картинки и детали, которые видит человек.
Появление визуально-языковых моделей (VLM) — когда ИИ анализирует не только текст, но и изображение экрана целиком — стало прорывом. Машина теперь видит так, как видим мы, и выдерживает сложные задачи: находит нужную кнопку из сотни, отличает актуальный элемент, адекватно реагирует даже если приложение обновилось. Но для дальнейшего прогресса, говорят авторы UItron, были нужны три вещи: много разнообразных «операционных следов» (траекторий действий), удобная среда для симуляции их в реальном времени и большая обученная база.
Что сделано в UItron?
В первую очередь проведена огромная работа по сбору и обработке данных: оказалось, что даже если взять сотни открытых датасетов для разных систем, их формат разный, примеры разбросаны по множеству платформ, а сценариев маловато. Поэтому команда UItron:
собрала свыше миллиона шагов по действиям из топ-100 китайских мобильных приложений, где ранее ИИ сбоил;
разработала собственную инфраструктуру для сбора и тестирования на мобильных устройствах и ПК, позволяя обучать агента на реальном взаимодействии, а не только на скриптах;
придумала, как унифицировать разнородные данные и расширить задачи — теперь модель учится и на текстах, и на картинках, и на историях последовательных команд из жизни реальных пользователей.

Но одного сбора данных мало. Еще нужно научиться планировать цепочку действий, если пользователь просит, например, «отправить файл в мессенджере» — ведь это не один, а целый каскад кликов, поисков, пролистываний, ввода сообщений… UItron «думает» над тем, какой сценарий сработает эффективнее, разбирает переменные интерфейса и пробует разные стратегии, учитывая, что иногда награда за правильное решение (к примеру, успешно отправленный файл) бывает не сразу, а только в финале длинного пути.
Практически, UItron состоит из трёх фаз обучения:
Сначала — восприятие: агент распознает элементы интерфейса (тексты, кнопки, иконки), учится видеть даже миниатюрные детали.
Затем — планирование: строит модель следующих действий, учится как последовательно и правильно реагировать на окружающую «обстановку» интерфейса.
Наконец, проходит фазу обучения с подкреплением (RL): агент получает систему наград — чем больше успешных задач решено, тем сильнее он научается извлекать уроки даже из неудачных попыток.

Интересно, что для китайских приложений UItron не имел себе равных: его точность и способность довести дело до конца (даже в новых, неслыханных интерфейсах) оставила позади другие, даже закрытые промышленные системы. Такой скачок объясняется как огромным объемом специально размеченных для Китая данных, так и хорошо продуманной системой оценки и тренировок.

Другим важным достижением стала возможность полноценно учиться онлайн, представляя агенту новые задачи прямо по ходу дела и тут же проверяя, как он освоил интерфейс, составил план, достиг ли результата. Эта интерактивность — шаг вперед по сравнению с прежними системами.


В испытаниях UItron превзошел многих известных конкурентов по восприятию элементов (где важна точность и быстрота принятия решения), по качеству привязки действия к правильным объектам на экране и по умению планировать сложную последовательность действий, как в настольных, так и мобильных приложениях. Например, если сравнить его производительность с топовыми открытыми моделями — прирост успешности задач доходит до 10–20%, а в китайских супераппах — еще выше.

Что особенно важно — UItron полностью открыт для исследователей. Его можно развивать, подключать в свои проекты, расширять на новые языки, типы приложений и сценарии. Это фундамент для будущих мультиагентных систем, где ИИ сможет не просто выполнять команды пользователя, но и сам прокладывать пути к решению в цифровом мире.
Что дальше? В планах — еще более тесная связка аналитики восприятия интерфейса с точностью действий, создание мультиагентных систем, которые могут учиться друг у друга, и выход за пределы экранов, в мир взаимодействия с физическими устройствами. Так что перед нами — настоящий прототип цифрового помощника будущего.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.