Вышла GPT-5-Codex: код-ревью, рефакторинг и агентные задачи / forpes.ru

Главная
Вышла GPT-5-Codex: код-ревью, рефакторинг и агентные задачи

Вышла GPT-5-Codex: код-ревью, рефакторинг и агентные задачи +4

16.09.2025 08:44

python_leader 0 4600 Источник

Команда AI for Devs подготовила перевод анонса GPT-5-Codex — новой модели, оптимизированной для агентного программирования. Codex умеет писать проекты с нуля, проводить код-ревью, находить критические баги и даже часами самостоятельно выполнять масштабные рефакторинги.

Сегодня мы выпускаем GPT-5-Codex — версию GPT-5, дополнительно оптимизированную для агентного программирования в Codex. GPT-5-Codex обучен с упором на реальные задачи разработки: он одинаково хорошо справляется и с быстрыми интерактивными сессиями, и с долгими, сложными задачами, выполняя их автономно. Его возможности ревью кода позволяют находить критические баги ещё до релиза. GPT-5-Codex доступен во всех местах, где работает Codex: он используется по умолчанию для облачных задач и код-ревью, а разработчики могут выбрать его для локальной работы через Codex CLI и расширение для IDE.

С момента запуска Codex CLI (в апреле) и Codex Web (в мае) Codex постепенно превратился в более эффективного помощника в программировании. Две недели назад мы объединили Codex в единый продукт, связанный с вашим аккаунтом ChatGPT. Теперь можно бесшовно переключаться между локальной средой и облаком, не теряя контекст. Codex работает там, где вы пишете код — в терминале или IDE, в вебе, в GitHub и даже в приложении ChatGPT для iOS. Codex входит в планы ChatGPT Plus, Pro, Business, Edu и Enterprise.

С этими обновлениями Codex становится ещё ближе к тому, что мы изначально задумывали, — напарнику, который понимает контекст, работает рядом с вами и надёжно берёт на себя часть задач вашей команды.

GPT-5-Codex

GPT-5-Codex — это версия GPT-5, дополнительно оптимизированная для агентной разработки в Codex. Она обучена на сложных реальных инженерных задачах: создание проектов с нуля, добавление новых функций и тестов, отладка, масштабные рефакторинги и проведение код-ревью. Модель стала более управляемой, лучше следует инструкциям из AGENTS.md и генерирует более качественный код — достаточно описать, что вам нужно, без длинных пояснений о стиле или чистоте кода.

SWE-bench Verified. Ранее, в том числе на момент релиза GPT-5, мы публиковали результаты только по 477 задачам SWE-bench Verified, так как часть из них не удавалось запустить в нашей инфраструктуре. Теперь эта проблема решена, и мы отчитываемся обо всех 500 задачах.

Задачи на рефакторинг кода. В нашу систему оценки входят задачи на рефакторинг из крупных, давно существующих репозиториев, включая проекты на Python, Go и даже OCaml. Пример такой задачи — pull request в Gitea, где пришлось изменить 232 файла и 3 541 строку кода, чтобы протянуть переменную ctx через всю бизнес-логику приложения.

GPT-5-Codex динамически подстраивает время «размышлений» в зависимости от сложности задачи. Модель сочетает два ключевых навыка агента: совместную работу с разработчиками в интерактивных сессиях и автономное выполнение долгих задач. Это значит, что Codex работает быстрее на небольших и чётко определённых запросах или в процессе диалога, но может тратить часы на сложные задачи вроде масштабных рефакторингов. В тестах GPT-5-Codex справлялся с крупными задачами более 7 часов подряд, многократно дорабатывая решение, исправляя падения тестов и в итоге выдавая рабочую реализацию.

На трафике сотрудников OpenAI мы видим, что для нижних 10% пользовательских запросов (сортировка по количеству токенов, включая скрытые рассуждения и финальный вывод) GPT-5-Codex использует на 93,7% меньше токенов, чем GPT-5. А для верхних 10% — наоборот, думает дольше: вдвое больше времени уходит на рассуждения, редактирование и тестирование кода, а также на итерации.

GPT-5-Codex специально обучен для проведения код-ревью и поиска критических ошибок. Во время проверки он ориентируется в кодовой базе, анализирует зависимости, запускает код и тесты, чтобы подтвердить корректность. Мы оценивали эффективность код-ревью на свежих коммитах из популярных open source-репозиториев. Для каждого коммита опытные разработчики проверяли комментарии на правильность и значимость. Результат: комментарии GPT-5-Codex реже оказываются неверными или несущественными, благодаря чему внимание разработчиков концентрируется на действительно критичных проблемах.

GPT-5-Codex — надёжный партнёр и в задачах фронтенда. Помимо создания красивых десктопных приложений, он показал заметный рост по пользовательским оценкам качества при разработке мобильных сайтов. В облаке модель может анализировать изображения или скриншоты, которые вы передаёте на вход, визуально проверять свой прогресс и показывать вам скриншоты выполненной работы.

GPT-5-Codex создан специально для Codex CLI, расширения Codex для IDE, облачной среды Codex и работы в GitHub, а также поддерживает использование различных инструментов. В отличие от GPT-5, который является универсальной моделью, GPT-5-Codex мы рекомендуем применять исключительно для агентных задач в Codex или схожих средах.

Обновления в Codex

Недавно мы также улучшили Codex как напарника для программирования: обновили Codex CLI и выпустили новое расширение Codex для IDE.

Codex CLI

Codex CLI — это open source-инструмент, и за последние месяцы обратная связь от сообщества сыграла ключевую роль в его развитии. Учитывая эти отзывы, мы полностью перестроили Codex CLI вокруг агентных рабочих процессов, чтобы превратить наши модели в ещё более надёжных и полезных партнёров. Теперь в CLI можно прикреплять и делиться изображениями — скриншотами, вайрфреймами и диаграммами — чтобы формировать общий контекст при принятии дизайнерских решений и получать именно тот результат, который вам нужен.

При работе со сложными задачами Codex отслеживает прогресс с помощью списка дел и предоставляет инструменты вроде веб-поиска и MCP для подключения к внешним системам, улучшив при этом точность использования инструментов в целом.

Интерфейс терминала также обновился: вызовы инструментов и диффы стали лучше форматироваться и проще читаться. Режимы одобрения теперь сведены к трём уровням:

read-only — только чтение с явным подтверждением действий;
auto — полный доступ к рабочему пространству, но требуются подтверждения вне его;
full access — возможность читать любые файлы и запускать команды с доступом к сети.

Кроме того, появилась поддержка сжатия состояния диалога, что делает длинные сессии легче в управлении.

Подробнее см. в руководстве по быстрому старту Codex CLI.

Расширение Codex для IDE

Codex работает там, где вы привыкли — в вашей IDE. Расширение для IDE интегрирует агента Codex в VS Code, Cursor и другие форки VS Code, позволяя без лишних шагов просматривать локальные изменения и редактировать код вместе с Codex. Используя Codex в IDE, можно писать более короткие подсказки и получать быстрые результаты, так как модель использует контекст открытых файлов или выделенного кода.

Расширение также позволяет легко переключаться между облаком и локальной средой. Вы можете создавать новые облачные задачи, отслеживать прогресс и просматривать завершённые задачи, не покидая редактор. Для финальных правок облачные задачи можно открыть в IDE, при этом Codex сохранит весь контекст. Подробнее о том, как максимально эффективно использовать расширение для IDE, см. в руководстве по быстрому старту.

Codex cloud

Помимо Codex CLI, новое расширение для IDE и интеграция с GitHub сделали облачного агента Codex ещё ближе к повседневным рабочим процессам разработчиков. Теперь можно делегировать задачи прямо из редактора или GitHub, не переключаясь на другие инструменты.

Мы также серьёзно улучшили производительность облачной инфраструктуры. Благодаря кешированию контейнеров медианное время выполнения новых задач и последующих итераций сократилось на 90%. Codex теперь автоматически настраивает окружение: он ищет стандартные скрипты конфигурации и запускает их, а при необходимости (при наличии доступа в интернет) может выполнять команды вроде pip install, чтобы подтянуть зависимости во время работы.

Как и в CLI и расширении для IDE, теперь можно использовать изображения, чтобы делиться спецификациями фронтенд-дизайна или объяснять баги в интерфейсе. В процессе работы Codex может запускать собственный браузер, проверять результат, вносить изменения и прикладывать скриншот готового результата к задаче или PR в GitHub. Подробнее см. в документации.

Код-ревью

Codex теперь оснащён возможностями код-ревью, обученными находить критические ошибки. В отличие от инструментов статического анализа, он сопоставляет заявленную цель PR с реальными изменениями в diff, анализирует всю кодовую базу и зависимости, а также запускает код и тесты для проверки поведения. Подобный уровень тщательности встречается только у самых внимательных разработчиков, и Codex закрывает этот пробел — помогает командам раньше находить проблемы, снижать нагрузку на ревьюеров и выпускать продукт с большей уверенностью.

После включения в репозитории GitHub Codex автоматически проверяет PR-ы при переходе их из черновиков в готовые, публикуя свой анализ прямо в PR. Если он рекомендует правки, вы можете остаться в той же ветке обсуждения и попросить Codex внести изменения. Также можно вручную запросить ревью, упомянув в PR @codex review, и дать дополнительные указания, например: @codex review for security vulnerabilities или @codex review for outdated dependencies. Подробнее о настройке код-ревью для своих репозиториев см. в руководстве по быстрому старту.

В OpenAI Codex сейчас проверяет подавляющее большинство PR-ов, находя сотни проблем каждый день — зачастую ещё до начала человеческого ревью. Это стало ключевым фактором, позволяющим команде Codex двигаться быстрее и увереннее.

Создание безопасных и надёжных AI-агентов

Мы разрабатываем Codex с акцентом на защиту кода и данных от утечек и предотвращение злоупотреблений. По умолчанию Codex запускается в изолированной среде с отключённым доступом к сети (как локально, так и в облаке). Это снижает риск выполнения вредоносных действий на вашем компьютере и уменьшает вероятность атак через prompt injection из недоверенных источников.

Codex может запрашивать разрешение перед потенциально опасными действиями и обучен запускать команды для проверки собственных результатов. Разработчики могут настраивать параметры безопасности в зависимости от допустимого уровня риска. В облаке можно ограничить сетевой доступ доверенными доменами. В CLI и расширении для IDE разработчики могут сами утверждать команды с полным доступом или разрешать агенту использовать веб-поиск и подключаться к MCP-серверам. Это расширяет возможности агента, но одновременно повышает риски — подробнее о том, как безопасно работать с Codex, см. здесь.

Мы всегда рекомендуем разработчикам проверять работу агента перед внесением изменений или выкатыванием в продакшн. Для этого Codex предоставляет ссылки на источники, логи терминала и результаты тестов по каждой задаче. Хотя код-ревью от Codex снижает риск попадания опасных ошибок в продакшн — будь то ошибки, созданные людьми или агентами, — мы настоятельно советуем использовать Codex как дополнительного ревьюера, а не замену человеку.

В соответствии с подходом, принятым для GPT-5, мы классифицируем GPT-5-Codex как модель с высоким уровнем возможностей в биологических и химических областях и внедрили дополнительные меры безопасности для минимизации связанных рисков. Подробнее о наших оценках и подходах к безопасности читайте тут.

Русскоязычное сообщество про AI в разработке

Друзья! Эту статью перевела команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Цены и доступность

Codex входит в планы ChatGPT Plus, Pro, Business, Edu и Enterprise. Объём использования зависит от тарифа: Plus, Edu и Business подходят для нескольких целевых кодинг-сессий в неделю, а Pro покрывает полноценную рабочую неделю сразу по нескольким проектам.

В планах Business можно докупать кредиты, чтобы расширить возможности разработчиков сверх включённых лимитов. В Enterprise предусмотрен общий пул кредитов, и вы платите только за то, что реально используют ваши разработчики. Подробнее об ограничениях использования в ChatGPT читайте здесь.

Для разработчиков, использующих Codex CLI через API-ключ, мы планируем вскоре сделать GPT-5-Codex доступным в API.

Codex становится тем партнёром по программированию, которого мы всегда представляли: быстрым, надёжным и глубоко интегрированным в привычные инструменты. Мы с нетерпением ждём, какие проекты вы создадите с его помощью, и будем продолжать улучшать Codex, чтобы он стал ещё более ценным напарником для ваших самых амбициозных задач.

Комментарии (0)

helg1978
17.09.2025 08:00
#28846070
За последние пару месяцев Codex помог решить такие задачи:
1. Сайт на ноде для математических симуляций - выгребает ветки по АПИ гитлаба, позволяет выбрать ветвь, по АПИ Jenkins билдит ее, скачиват артефакт, скачивает из другой репки конфиги, предоставляет UI для симуляций, коммит результтов.
2. Сайт на ноде с Client Area, который имеет интеграции с headless CMS что б подтянуть ассеты, с кастомной АПИ-шкой для отображения параметров продуктов, с Confluence для отображения спек, ну и всякие там фильтры поист и т.д
3. Сайт на ноде с интеграциями RDS Aurora, S3
4. Несколько скриптов, по типу парсим комиты гитлаба за сутки - анализируем LLM-кой, выдаем в Слак саммари и код ревью коммитов/патчей
Понятно что все это не для прода.

Только 1 раз начал "ходить по кругу", разблокировался просьбой проанаизировать свои 10 последних МР-ов, что б очнуться.

Нравится что на фидбек "не работает" может подумав ответить "та не, должно работать я уверен. Вы точно подтянули обновления/сборка не упала?". Оказывалось что он прав.

Напрягает что сложно запускать больше 1 агента - возикают мерж конфликты, которые приходится саому ресолвить.