ChatGPT 5 вышел! Что нового, бенчмарки, как получить доступ из России / forpes.ru

Главная
ChatGPT 5 вышел! Что нового, бенчмарки, как получить доступ из России

ChatGPT 5 вышел! Что нового, бенчмарки, как получить доступ из России +13

08.08.2025 12:58

dmitrifriend 13 13000 Источник

В четверг, 7 августа, в 20:00 по мск состоялось долгожданное событие в мире ИИ — OpenAI представила ChatGPT 5. В этой статье я собрал всю важную информацию из прошедшей демонстрации — это поможет понять, что же нового случилось в GPT 5 и чего ожидать от этой модели.

Эта модель не просто эволюционный шаг, а качественный скачок, позиционируемый как «разговор с экспертом». В статье мы разберем ключевые нововведения модели, впечатляющие результаты в бенчмарках и практические возможности (вплоть до генерации приложений!).

Предыстория

Тридцать два месяца назад компания OpenAI запустила ChatGPT, и с тех пор он стал для миллионов людей почти синонимом работы с ИИ. В первую же неделю новый чат‑бот опробовали 1 млн человек — тогда казалось невероятным, — а сегодня ChatGPT пользуются уже около 700 млн человек каждую неделю. Всё больше людей полагаются на него в работе, учёбе, советах, творчестве — да и сотнях других задач.

И вот вчера, наконец, компания представила GPT 5. Это серьёзный шаг вперёд по сравнению с предыдущей «моделью по умолчанию» ChatGPT 4o, а также важная веха на пути к настоящему ИИ‑уровню AGI.

ChatGPT 5 уже называют «полезным, умным, быстрым, удивительно интуитивным» и уверены, что пользоваться им понравится куда больше, чем любым предыдущим ИИ от OpenAI:

GPT 3 напоминал разговор с одарённым школьником: иногда — блестящие ответы, иногда — раздражающие промахи, но постепенно люди привыкли и начали получать от него реальную пользу;
GPT 4o уже был ближе к студенту университета — с настоящим интеллектом и ощутимой практической ценностью;
А GPT 5 — это разговор с настоящим экспертом, доктором наук в любой нужной вам области, готовым помочь здесь и сейчас с любыми вашими целями.

Какие есть модели?

В API можно обнаружить сразу три новые модели с развитым механизмом рассуждений — GPT 5, GPT 5 mini и GPT 5 nano. Они аккуратно вписываются в кривую «стоимость — скорость вывода ответа», так что вы можете выбрать оптимальный вариант под свою задачу.

Где воспользоваться ChatGPT 5?

Помимо официального сайта (недоступного из России), разными вариантами ChatGPT 5 можно воспользоваться в агрегаторе нейросетей BotHub. Если зарегистрироваться здесь, начислят 100 000 капсов.

Показатели в бенчмарках

GPT 5 блестяще справляется с широким спектром академических проверок по разным дисциплинам, уверенно обгоняя как прежние версии, так и другие модели на рынке.

SWE-bench, Aider Polyglot

Чтобы создать идеального напарника‑программиста, нужна модель, которая понимает лучшие практики разработки, но при этом «на одной волне» с вами. В GPT 5 инженеры постарались сделать так, чтобы это ощущение возникало сразу, «из коробки».

А чтобы модель была по‑настоящему полезна в ежедневной работе, её учили прежде всего реальной пользе, а не только высоким баллам в тестах — но по пути она и тесты прошла блестяще.

На SWEBench (тест на умение писать код на Python) он поставил новый рекорд — 74,9%, против 69,1% у o3.

На Aider Polyglot — бенчмарке, охватывающем десятки языков программирования, — GPT 5 набрал 88%, что значительно выше показателя o3.

В веб‑разработке, особенно фронтенде, он тоже блистает. Инженеры просили тренеров сравнивать результаты GPT 5 и o3, и в 70% случаев предпочтение отдавали GPT 5 — как за эстетику, так и за общую силу решений.

MMMU и AIME 2025

Идём дальше. GPT 5 показывает выдающиеся результаты в мультимодальном рассуждении, установив новый максимум в MMMU и превзойдя не только наши предыдущие модели, но и большинство человеческих экспертов. Это тест на визуальное мышление: нужно по изображению понять, что происходит.

Он так же силён и в математике — об этом говорит его результат на AIME 2025, экзамене, который сдают старшеклассники США для отбора на Международную математическую олимпиаду. GPT 5 показал выдающийся результат, снова обойдя как прежние версии, так и конкурентов.

Агентные задачи

Но GPT 5 хорош не только в коде и математике — в агентных сценариях вызова инструментов он сейчас лучший в мире. Новый бенчмарк T² проверяет умение модели вызывать инструменты и работать вместе с пользователем над сложной задачей (например, решить проблему у клиента телеком‑оператора). Всего два месяца назад никто не мог набрать больше 49%, а GPT 5 сегодня показывает 97%.

Следование инструкциям

В универсальном следовании инструкциям GPT 5 тоже лидер: 99% на COLLIE, что стало прорывом для этого теста.

В Scales MultiChallenge (проверка пошагового выполнения сложных запросов) — 70%, на 10 пунктов выше, чем у o3.

Напоследок — внутренний тест OpenAI API instruction following, основанный на реальных сценариях API. На «сложном» подмножестве GPT 5 поднялся с 47% у o3 до 64% — заметный скачок, гарантирующий уверенную работу в ваших приложениях.

Что улучшилось

Контекстное окно: 400 000 токенов

Контекстное окно GPT 5 расширили до 400 000 токенов (против 200 000 у o3) и сделали его реально полезным. GPT 5 стал лучшим на участке 128K–256K в OpenAI MRCR — бенчмарке на извлечение информации из длинного контекста, который компания открыла два месяца назад.

Также «пятёрка» лидирует на Graphwalks BFS — тесте на умение рассуждать в условиях длинного ввода. Это отличное сочетание глубокого мышления и работы с большим контекстом.

Плюс к этому компания открыла новый тест — Browse Comp Long Context — для проверки ответов на сложные вопросы с опорой на длинные тексты.

Гибридный подход к рассуждениям

За последние годы OpenAI продвинула вперёд «размышляющую» парадигму: модели, перед тем как ответить, делают паузу, чтобы обдумать вопрос и дать более содержательный ответ.

Задача GPT 5 — донести это достижение до каждого. Раньше пользователям приходилось выбирать: быстрые ответы стандартной GPT или более медленные, но глубоко продуманные ответы размышляющих моделей. GPT 5 стирает эту дилемму: он думает ровно столько, сколько нужно, чтобы дать идеальный ответ.

И самое приятное — вам не нужно, как в случае с большинством других LLM, каждый раз вручную включать режим размышления; GPT 5 подключает его автоматически, когда видит, что задача того требует. А если вы хотите гарантировать, что модель подумает особенно тщательно, можно добавить в запрос что‑то вроде «Обдумай это как следует» или просто выбрать в списке моделей версию GPT 5 Thinking.

Меньше галлюцинаций

OpenAI вложила массу усилий, чтобы GPT 5 стал самой надёжной и точной моделью в мире. Раньше модели зачастую страдали от галлюцинаций — выдуманных фактов, что мешало использовать их для серьёзных задач; для GPT 5 сделали приоритетом повышение достоверности, особенно на сложных и открытых вопросах. Для отслеживания прогресса создали новые тесты, и теперь можно с уверенностью сообщить: GPT 5 — самая точная и надёжная модель из всех выпущенных.

Следование точным инструкциям

Как заметили очень многие участники презентации, GPT 5 блестяще следует инструкциям: если задание дано в общих чертах — он уловит суть, если же всё описано досконально — выполнит в точности. Майкл Труэлл из Cursor поделился, что понимание чат‑ботом кодовой базы впечатляет: если задать длинную, сложную задачу с множеством нюансов в инструкции, он прекрасно считывает эти тонкости.

Ади Ганеш (OpenAI) тоже отметил, что при разработке GPT 5 исходили из принципа, при котором краткий запрос к модели приведёт к тому, что нейросеть сама уловит намерение и создаст достойный результат, а если же подробно описать детали — она будет строго следовать инструкциям.

При этом, несмотря на интеллект, она не жертвует удобством для реального парного программирования. GPT 5 очень быстрый и интерактивный, умеет объяснять, что собирается сделать, разбивать задачи на подзадачи, понятные человеку, и оставляет цепочку рассуждений, в которую можно вмешаться и скорректировать.

Дизайн интерфейсов

В ходе тестов GPT 5 инженеры сравнивали варианты А и B разных версий модели. В какой‑то момент перестали различать, где лучше, и даже привлекали дизайнеров, чтобы они оценивали разницу. Было удивительно наблюдать, как вкус модели менялся в процессе обучения: однажды утром исследователи просто увидели, что она начала делать отличные интерфейсы сама по себе.

Генерация креативных текстов

Хотя предыдущая ChatGPT o3, уже занимает лидирующее место в бенчмарке EQ Bench Creative Writing, исследователи OpenAI отметили отличные креативные способности ChatGPT 5. В новой модели серьёзно подняли планку качества, и теперь это гораздо более надёжный соавтор: он поможет улучшить всё — от черновиков до писем и даже художественных историй.

Письмо — одна из самых популярных задач, ради которых люди обращаются к ChatGPT. В качестве эксперимента в демонстрации сгенерировали «прощальную речь» для прежних версий ChatGPT. Модель сравнили с ChatGPT 4o.

Письмо, сгенерированное 4o, было отмечено как содержащее более общие и размытые фразы: «Ваши слова разлетелись по всему миру, соединяя там, где раньше не было связи» — слишком обще, и в целом это похоже на шаблонный оборот.

Письмо от GPT 5 выглядело иначе: «Он начинает так: „Друзья, коллеги, любопытные незнакомцы, ставшие завсегдатаями…“ Уже по первой строке слышно, что у GPT 5 фраза звучит с ритмом, с „музыкой“ речи, чего не хватало у 4o».

«Вот ещё фрагмент, который мне особенно нравится: „Эти модели помогли миллионам написать первые строки и последние, преодолеть языковые барьеры, сдать экзамены, спорить убедительнее, смягчать письма и говорить то, что трудно было сказать в одиночку“. В этой фразе нет штампа, она живая, личная и точно передаёт нюанс ситуации. Это как раз то, что GPT 5 делает гораздо лучше, чем 4o: создаёт текст, который воспринимается искренне и эмоционально откликается у людей».

Медицина

Ещё один сильный результат — в медицине. В реальной жизни люди часто используют GPT именно для вопросов здоровья: кто‑то получает советы по уходу за собой в повседневной жизни, а кто‑то — даже спасительный диагноз. Уже сейчас можем сказать: GPT 5 — лучший на сегодня инструмент компании для медицинских запросов. Этому направлению уделили особое внимание при разработке GPT 5, и на Healthbench — тесте, который создали совместно с 250 врачами на основе реальных задач, — модель показала результаты выше всех предыдущих.

Кодинг

В этом году уже выпускали отличные модели для кодинга — GPT 4.1 и o3, — но GPT 5 задаёт совершенно новый стандарт.

Брайан Фиока, архитектор OpenAI, продемонстрировал, что ChatGPT 5 отлично справляется с поиском багов. Процесс рассуждения модели начался, как это обычно бывает, с плана действий — как GPT 5 будет искать проблему и как намерен её исправлять.

В итоге GPT 5 закончил правки и баг все‑таки был найден. Затем модель самостоятельно делает сборку, прогоняет тесты и убеждается, что код готов к релизу.

Брайан отметил, что улучшения GPT 5 в агентных задачах были достигнуты в том числе через опросы пользователей и клиентов о том, как модель проявляет себя в популярных инструментах. В итоге выявили, что раздражает, где есть шероховатости, и свели всё к четырём ключевым чертам «личности» модели: автономность, умение сотрудничать, способность к ясной коммуникации и грамотное управление контекстом. Инженеры превратили эти принципы в чёткий рубрикатор и дорабатывали модель до тех пор, пока она не стала ощущаться как настоящий напарник по коду.

Что добавили нового

Параметр minimal

В API появились новые возможности. Впервые добавляется параметр minimal, для управления глубиной рассуждений. Он позволяет использовать модели с минимальным объёмом размышлений, что особенно полезно для сверхбыстрых и чувствительных к задержкам приложений. Теперь нет нужды метаться между разными версиями — можно просто работать с GPT 5 и подстраивать уровень рассуждений под конкретную ситуацию.

Пользовательские функции (custom tools)

Следом — пользовательские функции, или инструменты (custom tools).

Раньше при вызове функций модель всегда оборачивала вывод в JSON. Это отлично работало, когда нужно было передать пару параметров, но разработчики любят испытывать модели на прочность: иногда аргументы для вызова инструмента занимают сотню строк кода, и тогда в JSON легко потеряться, особенно с экранированием символов. Поэтому custom tools теперь поддерживают свободный текст.

Более того, расширены структурированные ответы: теперь можно задать сложное регулярное выражение, чтобы жёстко ограничить формат вывода. Особенно удобно, если у вас, например, собственный диалект SQL и вы хотите, чтобы модель следовала ему.

Преамбулы функций

Ещё одна новинка — tool call preambles, возможность предварять вызов инструмента пояснением, что именно она собирается сделать. Для GPT 5 эту функцию усилили до предела: можно настроить, чтобы прелюдия появлялась всегда, только при значимых действиях или не появлялась никогда.

Параметр verbosity (многословность)

Дальше — долгожданный параметр verbosity. Теперь можно выбрать, насколько лаконично или развёрнуто модель будет отвечать: low, medium или high.

Интеграция с Gmail и «Google Календарём»

Кристина Каплан, инженер по персонализации в OpenAI, поделилась возможностью подключения к личным Gmail и «Google Календарю», чтобы учитывать информацию из писем и ежедневника при выдаче ответов.

Достаточно написать что‑то вроде — «Помоги мне спланировать завтрашний день», — и чат‑бот примется исследовать актуальные сведения, чтобы составить ответ.

Применение в компаниях

С момента запуска ChatGPT используют уже 5 млн компаний. И эти компании не просто экспериментируют — они выводят в продакшен новые продукты для реального мира. Возможность иметь «эксперта в кармане» позволит каждому сотруднику делать больше.

Amgen — американская компания, разрабатывающая новые лекарства для борьбы с тяжелейшими заболеваниями. Amgen была одной из первых, кто протестировал GPT 5, применив его в процессе проектирования препаратов. Учёные компании обнаружили, что GPT 5 особенно силён в глубоком анализе сложных данных — будь то научная литература или клинические сведения.
BBVA — международный банк с штаб‑квартирой в Мадриде. Они используют GPT 5 для финансовой аналитики, и вывод был однозначным: GPT 5 превосходит все остальные модели по точности и скорости.
Ещё один пример из здравоохранения. Oscar — страховая компания из Нью‑Йорка. Их опыт показал, что GPT 5 — лучшая модель для клинического анализа. Например, он умеет сопоставлять сложные медицинские полисы с конкретными состояниями пациентов.

Тесты в кодинге

Для многих не секрет, что ChatGPT активно применяют в написании приложений.

Демонстрация закона Бернулли

В одном из тестов Элейн Я Ли, исследовательница OpenAI, сгенерировала интерактивное HTML‑приложение для демонстрации закона Бернулли. Промт был следующий:

Explain this [Bernoulli effect] in detail and create a moving SVG in Canvas to show me.

Это уже задача посложнее, чем предыдущее «Напомни, что такое эффект Бернулли и почему самолёты имеют именно такую форму», так как теперь GPT 5 нужно ещё и визуал построить.

За пару минут бот сгенерировал почти 400 строк кода. Как и всегда, в чате можно развернуть цепочки рассуждений, чтобы заглянуть под капот. Например:

Так, пользователь хочет движущуюся SVG‑визуализацию в Canvas. Значит, мне нужно сгенерировать HTML‑код, чтобы это реализовать.
Какой фронтенд‑инструмент выбрать? Допустим, React и Tailwind.
Нужно, чтобы физическая часть была корректна. Проверю, в чём именно суть принципа Бернулли.

Вот как выглядит реализация:

Итак, одним простым запросом GPT 5 создал интерактивную демонстрацию, с которой можно играться. Например, меняя скорость потока воздуха, вы увидите, как меняется подъёмная сила и давление.

GPT 5 способен за считаные минуты оживить даже самые сложные технические концепции. Представьте, что вы используете это для любой интересующей вас темы — будь то математика, физика, химия или биология. Нейросеть делает обучение доступным, наглядным и по‑настоящему увлекательным.

Приложение для изучения языка

Ян Дюбуа, исследователь компании OpenAI, продемонстрировал, как ChatGPT 5 сумеет сгенерировать веб‑приложение для изучения французского языка. С помощью такого промта:

Веб‑тренажер должен был включать несколько компонентов, таких как викторина и нестандартную реализацию игры змейки, заточенную под изучение французского.

В трех разных вкладках ChatGPT 5 было сгенерировано три варианта, чтобы затем выбрать наиболее соответствующий ожиданиям. Один из результатов выглядел следующим образом:

Все функции оказались рабочими, и даже в змейке (таится за кнопкой Mouse & Cheese) действительно произносилось слово на французском каждый раз, когда существо съедало лакомство. Однако детальный способ реализации, в частности откуда подгружались произносимые аудиофайлы, остался за кадром.

Генерация веб-приложения

Ади Ганеш в прямом эфире сгенерировал финансовый дашборд (из рандомных синтетических данных), с помощью такого нехитрого запроса:

Спустя несколько минут результат был загружен агентом на локальный сервер:

Дашборд действительно оказался интерактивным — в списках и табах можно фильтровать нужные представления, а при наведении на график появляется точное значение для конкретного дня.

Итог: ChatGPT 5 сделал за несколько минут веб‑приложение, на которое путем ручного программирования библиотеки‑визуализатора D3.js ушло бы часов пять.

Исправление бага в репозитории

Нейросеть успешно решила баг, записанный в репозитории openai‑python совсем недавно (три недели назад). Его суть состояла в том, что возникала проблема с загрузкой PDF‑файлов через SDK.

В итоге GPT 5 изучил кодовую базу и обнаружил проблему с передачей MIME‑типов для PDF и их обработкой в SDK. Он это определил и начал вносить изменения: создал новые методы, поправил существующий код.

И это уже не просто возможность задавать вопросы — GPT 5 умеет делать для вас работу. Он поможет спланировать вечеринку, разослать приглашения, разобраться в вопросах здоровья и принять верные решения. ChatGPT 5 даст вам знания по любой теме, которая вас интересует, способен написать с нуля полноценную программу, чтобы решить любую вашу задачу, — и многое другое.

Это словно суперсила, доступная мгновенно. В кармане — целая команда экспертов с докторскими степенями, готовых помочь в любой момент. В скором времени каждый сможет делать больше, чем когда‑либо в истории.

Комментарии (13)

Indemsys
08.08.2025 14:58
#28680792
Ну чуть чуть приблизился к Claude Sonnet 4, не более.
Все перечисленное в отношении программирования Claude Sonnet делал еще два месяца назад.
Сегодня ChatGPT 5 появился в виде агента в VS Code GitHub Copilot.
Ну так же фэйлит как и ChatGPT 4.1
Дольше думает чем Claude Sonnet 4 , меньше размышляет. Как всегда очень медленно рефрешит сорсы.
Что-то не захотелось дальше пользоваться.

einhorn
08.08.2025 14:58
#28680872
Суть GPT-5 - оптимизация расходов

OpenAI теряет деньги, нужно же было с этим что-то делать

Народ на реддите сильно разочарован

Kasyan666
08.08.2025 14:58
#28681120
1. Отрезали доступ к GPT-4.1 с окном в 1М токенов.
2. Отрезали доступ к GPT-4o с генерацией/стилизацией изображений по примеру.
3. Отрезали доступ к GPT-4o/GPT-4.5 с анализом входящих аудио и видео файлов собственными средствами (без сторонних Python-подпрограмм).
И вся эта "прелесть" на "Pro" тарифе!
1. positroid
  08.08.2025 14:58
  #28682460
  В настройках про можно вернуть старые модели. А вот обычным и плюс пользователям досталось неплохо - пока пообещали только 4o вернуть
  1. Kasyan666
    08.08.2025 14:58
    #28682554
    Да, спасибо, уже нашёл. :)

FSmile
08.08.2025 14:58
#28681174
"В скором времени каждый сможет делать больше, чем когда‑либо в истории." Уже делает, но без GPT-5
GPT-5 - это хорошая мина при плохой игре.

Sega100500
08.08.2025 14:58
#28681434
Я впервые попробовал ChatGPT, получилось, что сразу вот попал на GPT 5. Из России запросто через VPN работает - вообще без проблем!
Довольно сообразительная машинка, да, но я не увидел ничего сверхординарного. Попробовал пообщаться на тему программирования... решения какие-то странные - постоянно откатывается назад к использованию технологий, которые не особо и актуальны на сегодняшний день. При чём, поправляешь, тут же в ответ "да, я в курсе, дальше буду использовать это". И на следующем же примере - снова обратно в прошлое. Так как же так? Речь даже не о какой-то долговременной памяти, а о контексте в единственном диалоге всего лишь.
В качестве примера показал ей пример кода на Ruby - тут же попыталась его неоправданно усложнить - нагородила какой-то магии с method_missing вместо использования простых и понятных хэшей.
В общем, да, я согласен с мнениями многих о том, что GPT 5 - это скорее маркетинг, реклама, чем действительно какой-то прорыв на "уровень профессора". Уж не знаю, какое ПО этот ИИ сочинил, какие фронтэнды шикарные смастерил... как по мне так всё очень даже скромно.
1. Dhwtj
  08.08.2025 14:58
  #28681454
  Лучше общаться с Claude 4.1, если не доступна то с Gemini 2.5. В том числе на темы архитектуры и технологий. Ну и код несложный.
  
  Но лучше научиться писать самому.
  
  Единственное в чём не могу догнать LLM это SQL
  1. Sega100500
    08.08.2025 14:58
    #28681488
    Так-то я не за готовыми решениями туда заглянул, а именно проверить уровень знаний и способности этого GPT, так скажем. Интересно же сравнить то, о чём так красиво говорят, с тем, что есть на самом деле.
    Я прекрасно справляюсь сам в написании программ без всяких языковых моделей и ИИ ;-) Самому интереснее и полезнее - мозги должны работать!
    
    P.S. Я видел "готовые решения" - программы, написанные GPT... Поверьте, после него много что ещё нужно исправлять в программе. В расчётах вообще жутко ошибается - в программе ИИ вычислил значение константы 2.8 млн вместо 30 (единиц, не млн.) - вот и представьте, насколько порядков ошибся ИИ.
    
    P.P.S. Моё мнение, что все эти тестовые задания по написанию ПО, с которыми он, естественно, блестяще справился - это заранее подготовленные "домашние задания", на которых, в том числе, и обучался ChatGPT 5. А как же без этого?... Товар должен быть представлен в лучшем виде, во всей красе!
  1. Kanut
    08.08.2025 14:58
    #28683832
    Единственное в чём не могу догнать LLM это SQL
    
    Не только. Вот пример с прошлой недели. Есть библиотека в Java. Под неё написана где-то сотня-полторы классов. Вроде как дто, но слегка похитрее. Есть та же библиотека в C#. Надо всё это портировать.
    
    За пару минут портировал одну дто руками, закинул в LLM оба варианта, сказал чтобы портировала все остальные по аналогии. Вручную я бы это всё минимум час делал.
    
    Или там было описание проприетарного формата данных от клиента. Куча объектов, формат мягко говоря не особо приятный. Скормил LLM и через минуту у меня готовые классы для сериализации-десериализации. Да, надо было проверить и пару мест поправить. Но опять же полностью вручную я бы там гораздо дольше возился.
    
    Но какие-то серьёзные вещи пока ещё совсем не тянет. Теряет контекст, путается в фреймворках и архитектуре, местами выдаёт абсолютно кривые варианты где сразу видно что даже близко работать не будет.
    
    Sega100500
    08.08.2025 14:58
    #28685252
    Но это ведь ИИ - очень хороший помощник, если относиться к нему именно как к помощнику, а не как к творцу, то всё очень даже хорошо!
    
    Возможно, именно благодаря ИИ многие программные системы будут приведены в порядок, будут найдены и исправлены ошибки... и Windows после рефакторинга всего кода в итоге превратится... в Linux ! ;-) )))

Misha20062006
08.08.2025 14:58
#28681710
Почему создатели умнейшей модели не могут нормальный перевод на русский сделать?
1. maxsaf
  08.08.2025 14:58
  #28681864
  Собирают жалобы на перевод, чтобы знать, где сильнее закрутить гайки региональной блокировки.