Ну вот, буквально позавчера я написал статью про Browser Use, и уже на следующий день OpenAI объявил о выпуске Operator — ИИ-агента, который может работать в браузере вместо вас.
Мало того, что OpenAI открыто манипулируют данными, не включая Browser Use в свой бенчмарк (потому что Browser Use лучше Operator — 89% против 87% в тестах Web Voyager), так ещё и работа идет в браузере на удаленном сервере (уже дико по отношению к приватности), то ещё и скрины всего, что происходит OpenAI будут хранить 3 месяца.
В общем, let's make AI open again: вот подборка альтернатив Operator, которые работают локально и не требуют ни денег, ни делиться своими данными.
Browser Use
Очевидно, что начать стоит с главного кандидата. Лидер сегодняшнего чарта, 15 тысяч звездочек на Гитхабе.
Про то, как использовать Browser Use и почему он такой классный у меня есть отдельная статья на Хабре, поэтому повторно расписывать здесь подробно его я не буду.
Тем не менее, повторю главное: решения для LangChain, которые умеют сёрфить веб, используя Cheerio или Puppeteer уже были, но у всех у них очень низкая точность.
Принципиальное отличие browser-use в том, как он идентифицирует интерактивные элементы на веб-странице, и пробрасывает эту информацию в LLM, так, что LLM может легко принимать решение о том, куда кликнуть, где писать, и так далее.
Бенчмарк говорит сам за себя:
Stagehand от BrowserBase
BrowserBase — это компания которая специализировалась на предоставлении AI‑агентам доступа к виртуальному браузеру — по сути, поднимала отдельную виртуалку с Chromium под управлением Playwright, и пробрасывала доступ к ней в AI‑агента. Это отличающийся от Browser Use сценарий, т.к. вместо локального решения используется виртуализация, но общий принцип остаётся таким же.
Их решение Stagehand практически полностью позволяет воспроизвести идею «напиши промпт, а дальше агент сделает всё в браузере за тебя».
Главная сложность в том, что вместо прямого управления браузером появляется прослойка в виде написания скрипта для Playwright, однако прямо в теле скрипта могут быть вставки, передающие дополнительные промпты в AI‑агента, который принимает решение о том, как действовать дальше.
Дополнительное удобство в том, что в случае, когда вы хотите вычленить из контента страницы какие‑то данные, в Stagehand можно пробросить JSON‑схему вместе с промптом, и он будет валидировать, что данные возвращаются в корректном формате.
В общем, удобный и проверенный тул, 6 тысяч звездочек на Гитхабе.
Computer Use от Anthropic
В целом, про Computer Use слышали уже вероятно все, но важно было бы упомянуть, что в отличие от описанных выше моделей, Computer Use даёт возможность AI-агенту использовать весь компьютер, а не только браузер. Из-за этого сильно страдает непосредственно качество использования браузера (52% в бенчмарках WebVoyager), но зато количество задач, которые в целом может исполнять такая система радикально выше.
Простейший способ развернуть Computer Use у себя локально, это склонировать репозиторий computer-use-demo и следовать инструкциям по установке (а также не забыть прокинуть ключик от Claude). Дублирую ссылку на демку.
Заключение
Несмотря на то, что решения для использования браузера/компьютера уже существуют, но их качество и удобство для конечного пользователя оставляют желать лучшего. Не совсем ясно, как Operator от OpenAI, не имея доступа к сессиям в моем браузере сможет выполнять задачи вместо меня. Точно так же непонятно, как Browser Use, не имеющий UI обертки/приложения для конечных пользователей может полноценно конкурировать с Operator, хоть это и заявляется их командой.
Тем не менее, та скорость, с которой эти технологии развиваются, поражает, и многие эксперты прогнозируют, что к концу 2025 года явление AI-сотрудников может стать массовым в компаниях. И с этим трудно поспорить, особенно учитывая, что решения вроде DeepSeek R1 демонстрируют невероятный уровень качества моделей, при радикально меньших требованиях к ресурсам (вплоть до работы на мобильных устройствах).
P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как делаю компанию, в которой все сотрудники — AI-агенты. Велком!