Codex за 5 месяцев 2026: мой топ-5 релизов, что не зашло и где OpenAI обогнал Anthropic / forpes.ru

Главная
Codex за 5 месяцев 2026: мой топ-5 релизов, что не зашло и где OpenAI обогнал Anthropic

Codex за 5 месяцев 2026: мой топ-5 релизов, что не зашло и где OpenAI обогнал Anthropic

26.05.2026 15:14

Maslennikovig 2 10000 Источник

Раньше, чтобы видеть, что делает дочерний агент, я делал так: оркестратор писал промпт в чат, я этот промпт копировал, открывал новую сессию Codex, вставлял, запускал, ждал, копировал результат обратно. Каждое параллельное действие — тройная ручная работа. Через хуки это нормально не делалось: я пробовал и ловил то, что хуки молча не срабатывают.

Сейчас я открываю Codex Desktop App, оркестратор спавнит субагентов, я кликаю в карточку любого и смотрю весь его трейс.

Так вот, эта одна перемена в моих руках появилась за последние пять месяцев, в том же релизном окне, что и пятнадцать других больших вещей. Январь-май 2026 у OpenAI был плотный — давайте по порядку.

Что вышло (быстрый список по месяцам)

Чтобы вы понимали масштаб — просто срез changelog:

Январь: GPT-5-Codex-Mini — компактная модель, в подписке ChatGPT даёт до 4× больше использования; авто-переключение на неё при 90% дневного лимита.
Февраль: GPT-5.3-Codex (5 февраля) — первая модель, в которой сошлись стек Codex и стек GPT-5 общего назначения, ~25% быстрее предыдущей. Стабильный steer mode, personal skills, parallel shell tools. Появился Codex Desktop App — окно, в котором видно несколько активных агентов сразу.
Март: GPT-5.4 (5 марта). First-class plugin system. Sub-agent addressing с path-based именами (/root/agent_a, /root/agent_b). Thread search. userpromptsubmit hook. Realtime sessions. GPT-5.1 ушёл в архив 11 марта.
Апрель: GPT-5.5 раскатился во все каналы. In-app browser (23 апреля) — агент кликает в локальный dev-сервер и проверяет UI глазами. Computer Use на macOS. GitHub PR reviews. Amazon Bedrock как провайдер. Hooks стали стабильными. Plugin marketplace. TUI reasoning controls (Alt+, / Alt+.). /goal в долгоживущем виде (0.128.0, 30 апреля). Платный $100/мес Pro-план для длинных Codex-сессий.
Май: Codex в ChatGPT mobile (preview). Windows sandbox с firewall-блокировкой сети. Chrome extension для параллельной работы по вкладкам. codex remote-control headless. Python SDK переехал в openai-codex. codex doctor — диагностика. Преодолена планка 4 млн еженедельных пользователей.

Пятнадцать заметных релизов за пять месяцев. У меня в работе закрепились не все.

Топ-5 моего рейтинга

Ранжирование субъективное — по тому, как сильно фича поменяла мою работу или работу команды. Не по тому, что громче пиарили.

#1. GPT-5.5 — на голову выше 5.4

Я был уверен, что 5.5 — это инкрементальное обновление в духе «+3% на SWE-bench, +5% на AIME, пишите письма». Открыл, прогнал на двух своих повторяющихся задачах (рефакторинг middleware и генерация миграции под нетривиальную схему) — и понял, что это не инкремент.

Тут больше всего удивило, что её не назвали GPT-6. По ощущениям другой класс. Не по бенчмаркам (там разрыв скромнее), а по тому, как она ведёт длинные многошаговые рассуждения. 5.4 в середине цепочки начинала «отвлекаться»: забывала промежуточный результат, переключалась на побочную задачу. 5.5 удерживает контекст плотнее. На задачах, где у меня было правило «после третьего шага дай ей паузу и пересобери контекст», теперь это правило не нужно: она держит.

Минус один: дороже. И это станет лейтмотивом дайджеста: каждое улучшение модели приходит с ростом трат токенов. Не потому, что цена за токен растёт (как раз нет), а потому что более «умная» модель чаще решает делегировать, проверить, перечитать. Токены утекают на самопроверки.

#2. Наблюдаемость субагентов через spawn

Сразу важная оговорка: субагенты в Codex существовали и раньше. Просто было нельзя детально смотреть, что они делают. Прижать их к отчётам или вытащить их состояние наружу было неудобно настолько, что для меня они существовали как чёрный ящик.

То, что поменялось, — это наблюдаемость. И появилась она в полном виде только тогда, когда у Codex стало два способа обработать «надо сделать подзадачу»:

Inline — модель остаётся в текущей сессии и делает подзадачу сама. Контекст один на всё, накапливается в основном треде. Отдельного subagent-треда не создаётся, в Desktop App никакая карточка не появляется. Всё видно, но всё перемешано с основной работой.
Spawn — модель явно создаёт отдельный subagent thread с fresh-контекстом, своим токен-счётчиком, своим статусом. В Desktop App появляется отдельная карточка, на которую можно кликнуть и провалиться в его трейс целиком. С марта эти треды получили path-based адресацию (/root/agent_a, /root/agent_a/agent_b1).

И вот это, особенно карточки и явная адресация, поменяло мне команду буквально.

До этого, повторюсь, ручная работа была такая: основная сессия пишет «надо запустить субагента с таким промптом», я этот промпт копирую, открываю отдельный чат, запускаю, дожидаюсь, копирую результат обратно. Параллельность была в кавычках, потому что я-то один. И через хуки автоматизировать это нормально не получалось — пробовал в разных вариантах, ловил либо отсутствие срабатывания, либо неправильный блок текста.

Сейчас spawn работает сам — я только в Desktop App смотрю карточки и пью кофе. Это та фича, которую я бы назвал «убийцей дублирующей работы».

Грабли, которые остались. У Codex модель сама решает, какой вариант запуска применить — inline или spawn. Если в промпте не прописано явно, по умолчанию она выбирает inline, потому что это дешевле и быстрее. Поэтому в каждом моём промпте для оркестратора есть строка «delegate via explicit spawn subagent, not inline». Без этой строки наблюдаемость снова исчезает. Я хочу, чтобы это было дефолтом для medium/complex задач — но пока приходится напоминать вручную.

#3. Browser Use — нашёл то, что юнит-тесты не видели

Browser Use появилось в Codex Desktop App 23 апреля. Идея простая: агент открывает локальный dev-сервер (или файл из репозитория) в встроенном браузере, кликает по UI, видит, что отрендерилось, и сравнивает с ожиданием.

Звучит как фичелист. Работает — иначе.

У меня был сценарий, где юнит-тесты на форму были зелёные, но при заполнении в браузере форма теряла часть полей при перерисовке (был bug в условном рендере, который тесты не покрывали — потому что они проверяли поля по data-testid, а условный рендер их удалял из DOM). Я попросил Codex с включённым Browser Use «открой форму, заполни первое поле, переключись во вторую вкладку, вернись, проверь, что введённое значение на месте». Он нашёл баг, прислал репродукцию, поправил условный рендер, дополнил тест.

Сэкономило точно несколько часов мне и ещё пару — ревьюеру, который иначе тоже ловил бы баг руками.

Минус: фича сожрала больше токенов, чем я ожидал. Каждый клик в браузере это action, который модель должна обосновать. Длинный пользовательский сценарий легко превращается в 30-50 итераций. Поэтому в производстве я её включаю не на всё подряд, а на конкретные кейсы: формы, мастера, ленты с ленивой подгрузкой.

#4. Codex Desktop App + Codex в ChatGPT mobile

Desktop вышел в феврале, mobile — в мае в preview. Технически это один сюжет: возможность видеть несколько активных Codex-сессий сразу.

Раньше, если у меня параллельно крутились три задачи в трёх терминалах, единственный способ их различать — заголовки окон. Я их активно использовал, держал на двух мониторах, путался в полтретьего ночи. Desktop App убрал эту головную боль: один список карточек, статус каждой, можно дернуть, можно поставить на паузу.

Mobile preview — отдельный кайф. Не для того, чтобы кодить с телефона (это плохая идея). А для того, чтобы видеть, что агент закончил, и одобрить следующий шаг. В пятницу вечером я могу с дивана (прогулки/ванной/туалета, тут выбери нужное:) сказать «да, мерджи», вместо того чтобы возвращаться к ноутбуку. У Claude Code такого нет.

#5. Hooks стали стабильными + plugin marketplace

Hooks-механика в Codex существовала и раньше, но была капризной. С апреля они стали стабильными, поддерживают inline-конфигурацию в config.toml, могут наблюдать за MCP-вызовами, apply_patch, длинными bash-сессиями. Прибавили PreToolUse контекст.

Plugin marketplace начал заполняться внешними плагинами — пока тонко, но в апреле туда подкатили admin-disable, share access controls, маркетплейс-removal/upgrade. Я туда поставил несколько чужих плагинов на пробу. Половина выглядит как маркетинг-демо. Половина — реально работающие штуки. Это нормальная экосистема в начале формирования.

Сильнее всего меня радует, что hooks теперь можно навешивать на стадии оркестрации — например, после спавна субагента проверить, что у него установлен правильный write zone.

Что не зашло

Симметрично — те же пять месяцев дали несколько вещей, которые либо не сработали, либо вызвали раздражение.

Автоматизации. Thread automations, добавленные в апреле, у меня периодически глючат и не срабатывают вовсе. Я их собирал на повторяющиеся ежеутренние задачи (прогнать линтер, проверить, что миграции собираются, кинуть саммари в Slack). Срабатывают раз через раз. Пока что я их откатил на cron + явный CLI-вызов — это менее красиво, но предсказуемо.

Скорость. Codex стабильно медленнее Claude Code на тех же задачах. Opus 4.7 в любом режиме быстрее. На простой генерации миграции у меня 5.5 думает 20-30 секунд там, где Opus отвечает за 5-7. Это не катастрофа, но накапливается за день. Если вам критична скорость отклика — берите Opus или Sonnet, GPT-5.5 побеждает на «глубине», не на «быстроте».

Inline vs spawn. Уже упомянул — в каждом промпте оркестратора приходится явно прописывать spawn, иначе субагент уходит inline и наблюдаемость теряется. Это не баг, это поведение по умолчанию (subagent дороже по токенам, поэтому модель по умолчанию выбирает дешёвый путь). Но я бы хотел флаг tui.subagents.default = "spawn" в config.toml. Пока его нет.

Hooks для копирования результатов между агентами. Я честно пробовал собрать через хуки автоматическую передачу результата субагента в основную сессию. Не получилось — либо хук не цепляется на нужную фазу, либо цепляется, но передаёт не тот блок. С появлением spawn это потеряло актуальность, но осадок остался.

Что приятно удивило

Одна неожиданная вещь, которую я ставлю отдельно — потому что она ломает популярный нарратив.

Лимиты у ChatGPT-плана по ощущениям сейчас БОЛЬШЕ, чем у Anthropic. И сбрасываются регулярно. Я не помню за эти пять месяцев ни одной недели, когда бы я упёрся в Codex-лимит до конца сессии. У Anthropic сейчас тоже идёт акция с увеличенными лимитами, но они почему-то заканчиваются быстрее.

Я ждал противоположного — ввели $100 Pro plan 30 апреля, ожидал, что нижние тарифы зажмут. Не зажали. По крайней мере, на моём профиле использования.

Это не значит «бегите все на Codex». Это значит — если вы выбирали Codex против Claude по лимитам, прошлогодний расклад поменялся. Стоит замерить заново.

Что я НЕ включил в этот дайджест

Чтобы не превращать статью в перечисление, три темы я сознательно не разбирал — про каждую у меня уже есть отдельная статья:

Compaction Codex vs Claude — почему 5.5 умеет компактить контекст на уровне весов, а Claude — нет, и что это даёт на практике. Есть отдельная статья на Хабре.
/goal autonomous loop — месяц экспериментов с этим режимом, грабли с непредсказуемыми токенами, кейс @NicolasZu с +25% fps. Тоже отдельная статья.
Оркестратор для Codex на базе Beads и Superpowers — система из четырёх локальных skill, которая держит контракт оркестрации, чтобы Codex не «срезал углы». Это майская статья, и архив со всеми четырьмя скиллами я выкладывал в Telegram-канале — пост с zip-вложением вот тут. Если хотите поставить себе — забирайте оттуда.

(Если вы дочитали до сюда и думаете, не «реклама ли это» — нет, скиллы лежат под MIT, никакого upgrade-варианта или подписки. Просто я не хочу прикладывать архив ещё раз: он уже опубликован, обновляется именно тот, что в Telegram-посте.)

Куда это всё движется

Если попытаться обобщить пять месяцев — OpenAI явно строит из Codex не «второй Claude Code», а полноценный agent workspace. Browser, computer, mobile, GitHub PR reviews, hooks, plugins, marketplace. Codex как место, где можно открыть задачу с утра, оставить агента работать на ней до вечера и проверить с телефона результат — это всё уже сейчас доступно, пусть и местами в preview.

Claude Code пока заметно быстрее и плотнее сидит в CI/CD. Codex выигрывает количеством рабочих ладошек, которые одновременно делают что-то в разных контекстах.

Я держу оба в работе и не вижу, чтобы это в ближайшее время изменилось.

Telegram-канал, где я скидываю заметки между статьями: t.me/maslennikovigor. Архив скиллов оркестратора Codex — там же отдельным постом, с zip-вложением. Прямой контакт: @maslennikovig.

Комментарии (2)

Dreams_and_magic
26.05.2026 15:50
#30022618
Интересная статья, спасибо.

Для меня приятным открытием в 2026 году стал выпуск DeepSeek V4 Pro и DeepSeek V4 Flash. Они не только неожиданно хороши (не везде и не всегда, но часто), и цены, с учётом кэширования, позволяют их использовать буквально за копейки, а вайбкодить, скажем так, за рубли:)

Sergo92154
26.05.2026 15:50
#30024418
Я создал воркспейс для кодекс. Работаю в vs code и юзаю их офы плагин. Есть ведущая роль и доп роли. Правила стандарты, пайплайны. Работаю строго через "инициативы" внутри каждого проекта (инициатива-план-шаги) , так не теряется контекст. Есть wiki и тулсы. И даже сам комитит в gitea, ветки и так далее. Высокая производительность без лагов. План 200$