
OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года.
В этом обзоре: бенчмарки (93% точности в математике, 84% в прочих областях), генерация 3D‑шейдеров, сравнение с DeepSeek R1-0528, Gemini 2.5 Pro, Claude Opus 4. А ещё мы проверили, как o3 Pro справляется с написанием рефератов и кодингом. Узнайте, стоит ли подписка за 200 $/мес своих денег и кому o3 Pro реально нужен.
Часть 1
Часть 2
OpenAI представила o3 Pro — расширенную версию своего наиболее мощного разумного чат‑бота. o3 Pro не просто апгрейд, а целый скачок: модель способна дольше думать и выдавать максимально обоснованные ответы. По замыслу OpenAI, она должна продолжить эволюцию успешных моделей o1-Pro и o3, решая более крупные задачи и выдавая более исчерпывающие ответы. Модель уже доступна пользователям пакетов ChatGPT Pro (200 $/мес) и Team.
Кстати, o3 Pro уже сейчас можно потестить в агрегаторе BotHub (оплата pay as you go, за фактическое применение). Регистрируйся по спецссылке и получи 100 000 бонусных токенов для доступа к любым ИИ без VPN. Идеально для сравнений!
Что внутри ChatGPT o3-Pro? Архитектурные новинки
ChatGPT o3 Pro основана на той же базовой архитектуре, что и o3 — мощная модель с генерацией по цепочке рассуждений и усиленным RLHF. При этом o3 Pro умеет обращаться ко всем встроенным инструментам ChatGPT (веб‑поиск, анализ файлов, Python, память и даже зрение), что даёт ей агентные возможности. Как и o3, o3 Pro обучена на данных до июня 2024 года (o1 Pro — до октября 2023-го).
Контекстное окно модели идентично o1 Pro и o3, но по‑прежнему огромно — целых 200 тыс. токенов, к тому же у модели те же 100 тыс. токенов на выход. Это означает, что o3 Pro может одновременно обрабатывать месяцы переписки или книгу, сохраняя всю информацию в памяти одной сессии.
При всех возможностях o3 Pro отвечает дольше, чем её предшественница o1 Pro, и OpenAI прямо предупреждает: модель может думать минутами. Самое забавное, что поначалу нейросеть затрачивала по несколько минут, чтобы просто черкнуть ответное «Привет!», но это, судя по всему, уже пофиксили. Технический директор Hyperbolic Labs Ючен Цзин в X пошутил, что о3-Pro «самая медленная и слишком думающая» модель — на его простой запрос «Привет, я Сэм Альтман» тоже ушло несколько минут работы. Лично мне не удалось воссоздать ситуацию: теперь к модели, предположительно, прикрутили стартовую проверялку, является ли вопрос совсем уж простым и действительно ли нужно исследование через o3 Pro, а если нет — ответ генерируется через упрощённую имплементацию.
Зато качество рассуждений возрастает: во всех опросах эксперты признают o3 Pro предпочтительнее o3 (наука, обучение, кодинг, бизнес, редактирование) — за чёткость, полноту, логичность и соответствие инструкциям.
Стоимость API отражает эту мощь: 20 $ за миллион входящих токенов и 80 $ за миллион исходящих. Для сравнения, обычный o3 теперь стоит всего 2 $/8 $, после недавней 80%‑й «распродажи». Конечно, o3 Pro предназначена для профессионалов — она уже доступна в пакетах Pro и Team (Enterprise/Edu выйдут позже).
Официальные бенчмарки и сравнение с другими моделями
OpenAI заявляет, что o3 Pro ставит новые рекорды на ключевых бенчмарках. Например, в апрельском релизе отмечалось, что o3 (младшая версия o3 Pro) установила показатель state‑of‑the‑art на Codeforces, MMMU и SWE‑bench. По опубликованным данным, o3 Pro ещё сильнее: на олимпиадной задаче AIME (2024) он набирает 93% pass@1, тогда как o3 — ~90%, o1 Pro — 86%. На тесте PhD‑уровня GPQA Diamond — 84% против 81% у o3 и 79% у o1 Pro. В кодинговых соревнованиях Codeforces Elo‑показатель o3 Pro (2748) значительно опережает o3 (2517) и o1 Pro (1707).

Кроме цифр, OpenAI приводит данные экспертов: в слепом тестировании «свой — чужой» респонденты на ~64% чаще выбирают ответы o3 Pro, чем o3. Это подтверждает прирост качества по многим задачам: «Учёные, программисты, бизнесмены и учителя особенно заметили улучшения в ясности и точности ответов».
Независимые бенчмарки: сильные и слабые стороны
Независимые исследователи и площадки тоже оценивали o3 Pro.
На платформе Chatbot Arena, она же OpenLM, с краудсорсинговыми батлами ботов o3 Pro пока не успела появиться, но o3 сейчас занимает в рейтинге второе место, набрав 1425 Elo, против 1478 у расположившегося на вершине Gemini 2.5 Pro. Логично предположить, что o3 Pro уготована судьба занять если уж не первое, то не ниже второго места (т. к. расположиться после o3 модель физически не сможет).
o3 Pro уже отметился в бенчмарке NYT Connections. Суть теста — проверить нейромодели на 651 головоломке. Чтобы исключить подвох (а вдруг модель уже видела ответы в обучающих данных?), отдельно протестировали только 100 свежих пазлов. Итог: o3 Pro рулит и там, заняв первое место!

Лаборатория Superficial подкинула любопытных данных о «фантазёрстве» o3 Pro. Они запустили Superfacts — бенчмарк, который оценивает утверждения ИИ‑моделей на бредовость. Метрика: сначала ответы моделей проверяются через датасет FACTS от Google DeepMind, а если FACTS находит неточность — Superficial дорабатывает запрос (чтобы попробовать вывести модель на правильный ответ) и перепроверяет.
Цифры из твита:
o3 Pro, как и другие модели OpenAI, склонен к галлюцинациям — 9-е место из 12.
На уровне утверждений он привирает в 18% случаев. Для сравнения: Gemini 2.5 Pro — 8,5%, Claude Opus 4 — 9,5%.
Зато o3 Pro отлично реагирует на доработки Superficial: после них точность взлетает до 99,02% (у всех моделей OpenAI так — после доработки промтов они дают выверенные ответы).
По точности o3 Pro примерно равен o3 (82,08% vs 84,14%).
В топах всё чаще мелькает Gemini — и в Superfacts тоже: Gemini 2.5 Pro занял здесь 1-е место, допуская наименьшее количество галлюцинаций.
Зоркий глаз: анализ изображений
o3 Pro, как и многие собратья, умеет не только читать, но и видеть. Насколько хорошо? Джеймс Галлахер из Roboflow (эксперты по компьютерному зрению) протестировал модель: она набрала 76,83% (63 из 82 тестов), тратя в среднем 39,5 секунды на ответ. Сильные стороны: распознавание текста/штрих‑кодов, определение частей изображения и связей между ними, анализ свойств объектов (например, пуст ящик или нет).
How many parts are missing? Return only a number.
Сколько деталей отсутствует? Верни только число.

Ответ o3 Pro: 1 (правильный).
Are all six bolts screwed in? Return only yes or no.
Все ли шесть болтов закручены? Верни только «да» или «нет».

Ответ o3 Pro: да (правильный).
Where is the defect in the product: top, left, bottom, right, or center? Return only the location, like left center.
Где дефект на изделии: верх, низ, лево, право, центр? Верни только расположение, например «слева в центре».

Ответ o3 Pro: сверху в центре (правильный).
How many vertices (marked as red or orange dots) are visible in this diagram? Present your answer as an integer
Сколько вершин (красные/оранжевые точки) видно на схеме? Ответ — целое число.

Ответ o3 Pro: 120. А вот промах! На самом деле 127.
Подробный отчёт здесь. Кстати, в тройке лидеров этого теста — o4 mini, 4o и o3.
Реакция сообщества: ожидания vs реальность
После анонса публика и разработчики потоком делятся впечатлениями. На Hacker News отмечают, что новая модели приносит реальные преимущества: «o3 Pro — шаг вперёд: я могу решать задачи, которые раньше не удавалось. Сложность проектов выросла». Некоторые отмечают значительный скачок продуктивности: даже если формальные метрики улучшаются слегка, практическая польза чувствуется сильнее.
Однако встречается и критика. Некоторые вспоминают, что и у предыдущих моделей не было чудес — сначала всё кажется крутым, потом выявляются галлюцинации: «Галлюцинация — фундаментально не решённая проблема». Вместе с тем часть комментаторов подчёркивает, что уровень «глюков» у o3 Pro вполне сопоставим с человеческим и их надо просто проверять как обычно, — процент «взрывных галлюцинаций» у модели ниже и отслеживать достоверность требуется реже.
В соцсетях пользователи делятся комментариями. Кроме отзывов о долгих ответах (что вызвано, очевидно, более тщательной их проработкой), замечают, что o3 Pro при сложных запросах с десятками файлов возвращает грамотный план действий — с метриками и дедлайнами.
Один разработчик с восторгом описал на Hacker News, как ChatGPT o3 Pro с первого раза сгенерил рабочий код для интеграции нескольких веб‑сервисов:
Пару дней назад завайбкодил небольшое приложение, оно тянуло данные из трёх сервисов и делало валидацию. Само по себе — ничего сверхъестественного, но мой запрос был буквально таким: «Вот как выглядят ответы от эндпойнтов A, B и C. Вот это поле из A должно быть в ответе B, а в ответе C должно фигурировать вот это из A и вот то из B. Если в ответах есть ссылки — проверь, что они рабочие». И, о чудо, он выдал ВСЁ целиком! Ни перегенераций, ни танцев с Agent Mode. Раньше такое требовало кучи мелких шагов и тестов, чтобы Agent Mode не накосячил.
Другие тоже делятся вау‑кейсами: X‑пользователь заставил модель за 13 минут и 682 шагов решить задачу о 10 дисках Ханойской башни:

А вот загадка, где o3 Pro уделал вообще всех: он единственный смог построить «лесенку» от слова space до earth, меняя за шаг всего одну букву так, чтобы каждое промежуточное слово было настоящим. Комментаторы подтверждают: другие модели либо вставляли в цепочку выдуманные слова, либо нарушали правила игры. Видимо, лингвистическая интуиция у o3 Pro — огонь!

Профессор Итан Моллик из Уортона (тот самый, что экспериментирует с нейрографикой) выяснил, что o3 Pro выдал лучший на сегодня результат в генерации шейдера. Промт был лаконичен:
create a visually interesting shader that can run in twigl app make it like the ocean in a storm
Создай завораживающий шейдер для twigl.app, похожий на океан во время шторма.
o3 Pro думал над этим 21 минуту, плюс ещё 19 минут исправлял мелкую ошибку в коде шейдера — но результат того стоил!

Для контекста — вот что выдавали другие модели (январь — май 2025-го):
10,4 МБ GIF‑изображений
ChatGPT o3 mini high (https://x.com/emollick/status/1885412470061158650):

Grok 3 (https://x.com/emollick/status/1891956902575104259):

Gemini 2.5 Pro — экспериментальный, март 2025-го (https://x.com/emollick/status/1904700257822540076):

Gemini 2.5 Pro — новый, май 2025-го (https://x.com/emollick/status/1919938304822124979):

P. S.: гифки были сконверчены «Твиттером» в MP4, но я вернул их в родной GIF‑формат. Не благодарите?
В общем, к o3 Pro отношение амбивалентное. Хотя Сэм Альтман анонсировал o3 Pro как «ужасно умный», сообщество пока держит удар. В повседневной работе o3 Pro воспринимается как драгоценный, но капризный инструмент. Скорость — пожалуй, главный минус: она ощутимо уступает обычным повседневным нейросетям, вроде ChatGPT-4o, поэтому модель неоптимальна для быстрых вопросов. Пользователи учатся заранее планировать запросы, чтобы не потерять время. Зато интеллект оказался на высоте: если сформулировать задачу предельно чётко, o3 Pro часто отвечает творчеством или анализом, о котором с прежними моделями можно было только мечтать.
Кому и зачем нужен o3 Pro
Кто же реально получит от o3 Pro выгоду? Это — научные коллективы и бизнесы с задачами большой сложности. Например:
Исследователи и аналитики. В научных и прикладных задачах модели нужны не банальные выводы, а глубокий анализ. o3 Pro прожуёт гигантские документы, научные статьи и эмпирические данные, а затем сделает логичный обзор с гипотезами и формулами. Это ценно в R&D, образовании или помощи в прогнозах, основанных на больших текстовых отчётах.
Бизнес‑аналитики и консультанты. Из больших неструктурированных данных — транскриптов совещаний, отчётов, трендов — o3 Pro может выжать дорожную карту или план действий. Пример с Raindrop (материалы встреч + план с метриками) — именно такой.
Словом, o3 Pro нужен там, где надо думать очень долго и очень глубоко, а цена вопроса — вторична.
Подводные камни и ограничения
С этической точки зрения o3 Pro ничем не отличается от прочих крупных LLM: вопросы приватности, авторских прав на обучающие данные и потенциальных предубеждений модели сохраняются. OpenAI подчёркивает, что o3 Pro унаследовал ту же «системную карту» и меры безопасности, что и o3.
Подведём итоги: o3 Pro впечатляет мощью — он для тех, кому нужно не просто «ответить», а «продумать». Учёным и аналитикам он сэкономит часы работы, но для регулярных задач будет избыточен. А для повседневных вопросов выбирайте ChatGPT 4o, Grok 3 или DeepSeek R1-0528 — они быстрее и дешевле.
P. S. Читайте следующую часть обзора o3 Pro здесь.