Ну вот, буквально позавчера я написал статью про Browser Use, и уже на следующий день OpenAI объявил о выпуске Operator — ИИ-агента, который может работать в браузере вместо вас.

Мало того, что OpenAI открыто манипулируют данными, не включая Browser Use в свой бенчмарк (потому что Browser Use лучше Operator — 89% против 87% в тестах Web Voyager), так ещё и работа идет в браузере на удаленном сервере (уже дико по отношению к приватности), то ещё и скрины всего, что происходит OpenAI будут хранить 3 месяца.

В общем, let's make AI open again: вот подборка альтернатив Operator, которые работают локально и не требуют ни денег, ни делиться своими данными.

Browser Use

Очевидно, что начать стоит с главного кандидата. Лидер сегодняшнего чарта, 15 тысяч звездочек на Гитхабе.

Ссылка

CEO Browser Use не устоял и тоже решил воспользоваться хайпом
CEO Browser Use не устоял и тоже решил воспользоваться хайпом

Про то, как использовать Browser Use и почему он такой классный у меня есть отдельная статья на Хабре, поэтому повторно расписывать здесь подробно его я не буду.

Тем не менее, повторю главное: решения для LangChain, которые умеют сёрфить веб, используя Cheerio или Puppeteer уже были, но у всех у них очень низкая точность.

Принципиальное отличие browser-use в том, как он идентифицирует интерактивные элементы на веб-странице, и пробрасывает эту информацию в LLM, так, что LLM может легко принимать решение о том, куда кликнуть, где писать, и так далее.

Бенчмарк говорит сам за себя:

Stagehand от BrowserBase

Ссылка

BrowserBase — это компания которая специализировалась на предоставлении AI‑агентам доступа к виртуальному браузеру — по сути, поднимала отдельную виртуалку с Chromium под управлением Playwright, и пробрасывала доступ к ней в AI‑агента. Это отличающийся от Browser Use сценарий, т.к. вместо локального решения используется виртуализация, но общий принцип остаётся таким же.

Их решение Stagehand практически полностью позволяет воспроизвести идею «напиши промпт, а дальше агент сделает всё в браузере за тебя».

Главная сложность в том, что вместо прямого управления браузером появляется прослойка в виде написания скрипта для Playwright, однако прямо в теле скрипта могут быть вставки, передающие дополнительные промпты в AI‑агента, который принимает решение о том, как действовать дальше.

Дополнительное удобство в том, что в случае, когда вы хотите вычленить из контента страницы какие‑то данные, в Stagehand можно пробросить JSON‑схему вместе с промптом, и он будет валидировать, что данные возвращаются в корректном формате.

В общем, удобный и проверенный тул, 6 тысяч звездочек на Гитхабе.

Computer Use от Anthropic

Ссылка

Ссылка на видео

В целом, про Computer Use слышали уже вероятно все, но важно было бы упомянуть, что в отличие от описанных выше моделей, Computer Use даёт возможность AI-агенту использовать весь компьютер, а не только браузер. Из-за этого сильно страдает непосредственно качество использования браузера (52% в бенчмарках WebVoyager), но зато количество задач, которые в целом может исполнять такая система радикально выше.

Простейший способ развернуть Computer Use у себя локально, это склонировать репозиторий computer-use-demo и следовать инструкциям по установке (а также не забыть прокинуть ключик от Claude). Дублирую ссылку на демку.

Заключение

Несмотря на то, что решения для использования браузера/компьютера уже существуют, но их качество и удобство для конечного пользователя оставляют желать лучшего. Не совсем ясно, как Operator от OpenAI, не имея доступа к сессиям в моем браузере сможет выполнять задачи вместо меня. Точно так же непонятно, как Browser Use, не имеющий UI обертки/приложения для конечных пользователей может полноценно конкурировать с Operator, хоть это и заявляется их командой.

Тем не менее, та скорость, с которой эти технологии развиваются, поражает, и многие эксперты прогнозируют, что к концу 2025 года явление AI-сотрудников может стать массовым в компаниях. И с этим трудно поспорить, особенно учитывая, что решения вроде DeepSeek R1 демонстрируют невероятный уровень качества моделей, при радикально меньших требованиях к ресурсам (вплоть до работы на мобильных устройствах).


P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как делаю компанию, в которой все сотрудники — AI-агенты. Велком!

Комментарии (0)