
На днях компания OpenAI представила обновленное приложение Codex для Mac. Среди множества нововведений особняком стоит встроенный инструмент управления macOS, который позволяет Codex взаимодействовать сразу с несколькими программами. Делает он это в фоновом режиме с помощью “параллельных курсоров”: агенты работают с приложениями сами по себе, не перетягивая окна на передний план и не отвлекая пользователя. По сути, эта функция – буквальное воплощение проекта Sky. Позже OpenAI выкупила этот стартап вместе со всей командой разработчиков.
Под словом “буквально” я не подразумеваю простое сходство. Если вы включите плагин управления компьютером в Codex, загляните в файл конфигурации
config.tomlчерез любой текстовый редактор. Там вы обнаружите следующую строку:/Users/username/.codex/plugins/cache/openai-bundled/computer-use/1.0.750/Codex Computer Use.app/Contents/SharedSupport/SkyComputerUseClient.app/Contents/MacOS/SkyComputerUseClient
В этой папке и лежит исполняемый файл того самого приложения Sky, которое теперь превратилось в официальный плагин и отвечает за всю магию взаимодействия с интерфейсом в Codex.
Многие наверняка помнят, что я тестировал Sky несколько месяцев, пока команда не ушла в тень, чтобы примкнуть к OpenAI. И вот в чем дело: я нисколько не преувеличу, если скажу, что сейчас в Codex реализована лучшая система управления компьютером, которую я когда-либо видел в ИИ-агентах. Она даже превосходит то, что я пробовал в Sky год назад. Прошлый вариант был хорош, но работал ощутимо медленнее нынешнего, поскольку базировался на моделях Claude от Anthropic. Сегодня в Codex для Mac даже вальяжная GPT 5.4 действует шустрее, чем Sky в свои лучшие времена. А если включить скоростной режим Codex или поручить простые задачи модели GPT-5.3-Codex-Spark от Cerebras, производительность становится просто космической по сравнению с результатами 2025 года.
Как же это работает? Позвольте объяснить. Большинство подобных систем – взять хоть ту, что в приложении Claude, или свежее расширение Personal Computer от Perplexity, – полагаются на связку записи экрана и AppleScript. Они либо имитируют виртуальные клики по картинке, либо выполняют базовые действия в программах, вызывая osascript через терминал. Sky пошел другим путем, и Codex унаследовал этот подход. Сегодня я могу раскрыть карты и рассказать о технических деталях, о которых умолчал в прошлогоднем обзоре.
За само существование инструментов управления в Codex нам стоит благодарить команду Apple, отвечающую за универсальный доступ (Accessibility). Разработчики Codex задействовали продвинутую функцию, которая позволяет стороннему софту считывать иерархию элементов (так называемое дерево AX) любого открытого окна в macOS. Насколько я понимаю, изначально эта технология предназначалась для экранных дикторов и других вспомогательных инструментов, чтобы те могли взаимодействовать с программами вне зависимости от наличия в них официальной поддержки скриптов. В OpenAI же эту функцию переосмыслили: теперь Codex проглатывает всю структуру окна, превращая её в контекст для языковой модели.
А вы знаете, что увидеть приложение – это половина дела? Вторая половина – правильно проанализировать иерархию AX, принять решение и отдать команду. И тут качество модели решает всё.
Не у всех есть доступ к GPT-5.4, но у вас он может быть. Через BotHub. Без подписки OpenAI и танцев с бубном. Просто заходите, выбираете нужную модель и запускаете свои тестовые сценарии.

По ссылке вы можете получить 300 000 бесплатных токенов и приступить к работе с нейросетями!
Когда мне впервые объяснили этот принцип работы Sky, я сразу почувствовал что-то знакомое. И не ошибся: та же технология использовалась в UI Browser – великолепном, хоть и почившем приложении для инспекции визуальных элементов macOS. Этот же фундамент заложен в плагине Codex: если присмотреться к чату во время его работы, можно заметить, как 5.4 анализирует то самое “дерево универсального доступа”, которое собирается извлечь из программы.
Данные фреймворки никогда не создавались для автоматизации. Для начала, они вываливают на вас тонны текста о каждом элементе, поле ввода или кнопке в окне. Эти данные могут быть отформатированы как угодно и запрятаны в дебрях XML-подобной структуры AX так глубоко, что порой приходится опускаться на двадцать уровней вниз, чтобы найти искомую цель. Но именно здесь Codex раскрывается во всей красе. Покупка Sky стала для OpenAI гроссмейстерским ходом, и теперь понятно, почему отзывы в сети столь восторженные. Codex видит приложения изнутри и управляет ими гораздо точнее, чем модели, которые просто делают скриншоты, гадают по координатам кликов и изредка запускают AppleScript. Codex тоже умеет использовать эти методы как запасной вариант, но ставку делает на более глубокий и надежный механизм.
Но чего в Sky точно не было, так это нового виртуального курсора: команда Codex разработала для него целую систему.
Курсор может “вилять”, показывая, что модель задумалась, выбирает необычные маршруты движения и даже подстраивает свой цвет под обои рабочего стола. На ум приходит лишь одна компания, которая так же фанатична над мельчайшими деталями интерфейса.
Я тестировал Codex весь день, и, хотя он пока не может сравниться в скорости с опытным пользователем, знающим каждый уголок macOS, он чертовски хорош в управлении приложениями. Пусть он действует чуть медленнее человека, но делает это в фоновом режиме и с гораздо большей точностью, чем аналоги от Anthropic или Perplexity. Это делает его идеальным помощником для борьбы с рутиной в тех программах, где нет API, консольных команд или полноценной поддержки AppleScript. Позвольте привести пару наглядных примеров.
Сегодня я попросил Personal Computer от Perplexity и Codex “включить последний альбом той странной группы в масках из Квебека, название которой я вечно забываю”. Оба агента честно сходили в интернет и верно определили исполнителя. Но когда дошло до управления приложением “Музыка”, Perplexity спасовал – его интеграция через AppleScript не дотянула до нажатия кнопки Play. Codex же уверенно открыл нужный альбом своим виртуальным курсором и запустил воспроизведение.


Также я поручил Codex просмотреть рабочие каналы в Slack, ленту в Ivory и читалку Unread, чтобы составить краткую сводку важных новостей. Codex ловко задействовал параллельные курсоры, прокрутил ленты и прокликал посты во всех трех приложениях, выдав в итоге цельный отчет. Мог ли я сделать это сам, по очереди открывая каждое окно по старинке? Безусловно. Но как автоматизация, которая крутилась где-то на фоне, пока я разбирал почту, это было потрясающе удобно.

Еще одна задача, над которой Codex бьется уже шесть часов, – улучшение моего инструмента Shortcuts Playground. Я создаю эту систему, чтобы собирать быстрые команды в приложении “Команды” (Shortcuts), используя ИИ-агентов и обычный человеческий язык. С помощью Codex я решил не просто генерировать код, а заставить агента самого запускать процесс: находить файлы .shortcut в Finder, устанавливать их и тестировать в деле, вылавливая ошибки. Codex не только успешно установил десятки команд, но и открыл каждую, проверил результат работы и сейчас анализирует проколы, чтобы подкорректировать инструкции для моей системы.


Короче говоря: плагин управления компьютером в Codex на данный момент – это мощный эволюционный скачок того фундамента, который я заприметил еще в прошлом году, доведенный до ума и расширенный специалистами OpenAI. Мне бы хотелось, чтобы компания внедрила этот плагин и в основной клиент ChatGPT для Mac (который до сих пор ограничивается старой интеграцией Work with Apps), но пока я с удовольствием буду пользоваться Codex, предпочитая его медлительным и менее способным чат-ботам конкурентов. А главное – я искренне рад, что наработки Sky попали в хорошие руки.
Комментарии (5)

alexanderniki
19.04.2026 20:00Очередное "как я собрал агентскую вундервафлю, автоматизировал процессы, делегировал задачи и поднял три раунда инвестиций".
Oh yeah, here we go again...

normal
19.04.2026 20:00только почему-то этот чудо-плагин автоматом не включается, вот тут подробная инструкция.
categofree
Надеюсь они когда-нибудь починят компановку контекста, потому что сейчас он может недоделать что-то используя compute use, а потом просто теряет контекст и либо все заново, либо вообще не запустит его. Какая-то беда у них с этим, но может и вправду есть сложности сохранить то, что там в конце контекста делал агент и явно намекнуть ему это продолжить.