
Веб-агенты сегодня ведут себя в чужих интерфейсах как нежданные гости: смотрят на скриншоты интерфейса и догадываются, на какие кнопки можно нажимать. Малейшее обновление интерфейса ломает всю логику, повышает цену поддержки пайплайнов, а приватность пользователей страдает. Авторы VOIX предлагают простой, но далеко идущий ответ: пусть сайты сами дают агентам разрешенные действия и описывают (в виде актуального текста) то состояние, которое важно для выбора действий. Это фундамент Agentic Web - сети, где люди и ИИ сотрудничают по прозрачным правилам.

Что такое VOIX
Фреймворк добавляет всего два тега к HTML:
<tool> описывает действие по имени и строго типизированным параметрам. Нажатие на инструмент агентом вызывает бизнес-логику сайта, а результат возвращается сайту с событием return.
<context> - компактное текстовое описание состояния, актуальное для выбора действий. Может динамически обновляться по мере работы приложения. Можно также объявить несколько контекстов.
Вместо того, чтобы гадать, какие аффордансы ему доступны, агент читает протоколы: вот, что ты можешь сделать, вот такие параметры и вот, что происходит на странице. Разработчик сайта сохраняет контроль, а агент больше не бродит вслепую по пользовательскому интерфейсу.

Как это реализовано
Роли разделены прозрачно и наглядно.
Сайт - источник правды о своих возможностях, объявляет инструменты и контексты. Дальше работает привычный стек инструментов, от React и Vue до Laravel.
Браузерный агент находит <tool>/<context> на странице, показывает их в боковой панели, отдает их текстовое описание LLM и диспатчит вызовы обратно на страницу. В опенсорсной референсной версии это расширение для Chrome.
Провайдер инференса, то есть любая LLM. Модель опирается на протоколы, а не на визуальный интерфейс, чтобы выбрать действие и параметры, исходя из пользовательской цели.
Важна приватность. Отправляемый пользователем для инференса диалог сайт не увидит - он уходит напрямую провайдеру LLM. Агент видит ровно те контексты и инструменты, которые сайт им объявил. Пользователь может отключать видимость контекстов в расширении Chrome.

Проверка на практике: трехдневный хакатон
16 разработчиков создали шесть приложений с протоколами инструментов и контекстов на трехдневном хакатоне. Инструменты и контексты обычно объявлялись локально в компоненте, а инструменты были видимы только там, где их имело смысл использовать. Например, пользователь мог кликнуть на объект и сказать “поверни это на 45 градусов”, и код инструмента понимал, о каком объекте идет речь.
По опросу SUS (System Usability Scale) получился средний балл 72.34 - “хорошо”. По шкале доверия TOAST(Trust in Open-source Autonomous Systems Test ,шкала оценки доверия к ИИ-системам) пользователи оценили систему как понятную и производительную. Главная сложность была не технической. Участникам было трудно решить, какие инструменты нужно объявлять: нужно выбрать правильный уровень абстракции.

Также были протестированы UI-агенты Perplexity Comet и BrowserGym на двух сценариях реальных пользовательских задач во всех шести приложениях VOIX. Отслеживалась задержка между пользовательским запросом и визуальным подтверждением результата.
Авторы оценили задержку между запросом и визуальным подтверждением результата для VOIX, Perplexity Comet и BrowserGym. Результат получился предельно контрастным. Протокольные инструменты VOIX выполнили за 2.32 секунды команду создать синий треугольник – Comet потребовалось 27.21 секунды, а визуальные агенты упали в ряде задач. В другом сценарии Fitness App составление недельного плана HIIT заняло 14.38 секунды с VOIX, против 229.52 секунды для Comet и 1271 для BrowserGym. VOIX экономит время, агент просто вызывает инструмент с нужными параметрами и получает немедленный ответ. VOIX агент видит пользовательские сценарии потому, что разработчики объявляют инструменты более высокого уровня, чем существующие кнопки в интерфейсе.
В какой степени VOIX дает разработчику сайта контроль, не жертвуя автономией пользователя? Сайт объявляет только те инструменты, которые считает безопасными. Пользователь выбирает, какие контексты раскрывать провайдеру LLM. Сам провайдер выбирается в расширении Chrome. Вычисления не ложатся на владельца сайта, а отдаются выбранному пользователем облачному LLM. Сами создатели сайта не получают доступ к пользовательскому диалогу. Такая прозрачность достигается на уровне протокола, а не политики.
Ограничения и что дальше
У VOIX есть цена. Требуется дисциплина, чтобы инструменты оставались синхронизированными с UI, и новые тестовые методы, чтобы выявлять рассинхронизацию между интерфейсом и инструментом. Также инструменты нужно проектировать правильно: слишком низкий уровень абстракции объявляет кучу простых кнопок, а слишком высокий ломается при сценариях чуть сбоку от ожидаемого. Потребуются руководства о том, как правильно проектировать инструменты, и, возможно, общие каталоги инструментов.
Итог
VOIX делает из сайта машинночитаемую политику пользователя: что пользователь разрешает сайтам делать от своего имени, с какими параметрами и для каких задач. Если мы хотим сделать интернет для агентов, то лучше начинать с протоколов, подобных VOIX. Они делают разрешенные действия прозрачными для обеих сторон. В этом случае “брокером доверия” становится не провайдер LLM, а конечный пользователь. Без таких протоколов ИИ-агенты будут блуждать по интернету вслепую. А с ними интернет становится средой, где ИИ-агенты работают точно, безопасно и по правилам, которые задаёт человек.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.