
Недавно OpenAI выпустила модели o3-mini и o3-mini-high, и теперь они доступны в ChatGPT и API.
o3-mini быстро справляется с продвинутыми рассуждениями, в то время как o3-mini-high отлично справляется с программированием и логикой.
Вот что удивительно: средний показатель по программированию у o3-mini-high на LiveBench составляет 82,74. Другие модели даже близко не подошли к этому показателю: o1 (69,69), Claude 3.5 Sonnet (67,13), deepseek-r1 (66,74).

o3-mini-high на данный момент является лучшей моделью для программирования
Что еще лучше, так это то, что даже бесплатные пользователи могут попробовать o3-mini в ChatGPT (выбрав кнопку Reason). У пользователей Plus и Team есть ограничение на 150 сообщений в день в o3-mini, в то время как пользователи Pro имеют неограниченный доступ к o3-mini и o3-mini-high.
Давайте узнаем, как можно использовать o3-mini для программирования, и посмотрим, насколько хорошо она работает по сравнению с другими моделями.
Примеры использования o3-mini для программирования
Тесты показывают, что o3-mini отлично подходит для программирования. В примерах ниже вы увидите, что многие пользователи смогли создать игры и небольшие приложения с помощью однократных промптов (и нескольких попыток).
Во-первых, вот игра-стрелялка, которую я легко создал с помощью кода на Python благодаря o3-mini. Я указал всего несколько инструкций в промпте, запустил сгенерированный код и быстро получил игру.
Пользователь X использовал o3-mini для создания простого клона Twitter. И все это за 8 секунд!
Другой пользователь X использовал o3-mini и DeepSeek для написания программы на Python, которая показывает, как мяч подпрыгивает внутри вращающегося шестиугольника (тест на гравитацию). Вот результат, который он получил.
Подобным образом можно привести множество других примеров o3-mini, показывающих, насколько хороша эта модель в программировании. Но не верьте мне на слово, давайте посмотрим на цифры!
o3-mini оптимизирована для STEM-рассуждений
Модель o1 от OpenAI остается их более широкой моделью рассуждений на основе общих знаний. При этом o3-mini представляет собой специализированную альтернативу для науки, математики и программирования. Кроме того, она снижает задержку o1-mini.
Ниже приведены некоторые выводы, сделанные на основе математической оценки:
При небольших усилиях, затрачиваемых на рассуждения, o3-mini достигает сопоставимой производительности с o1-mini
при средних рассуждениях o3-mini соответствует o1 в математике, программировании и науке, а также обеспечивает более быстрые ответы
при больших усилиях в рассуждениях o3-mini превосходит o1

Однако LiveBench показывает несколько иные результаты в математике.

Что касается программирования, LiveBech показывает, что o3-mini превосходит другие модели (deepseek-r1, o1, claude-3.5-sonnet и др.) даже при средних рассуждениях. При высоком уровне аргументации o3-mini увеличивает свое преимущество, достигая значительно более высоких показателей по ключевым метрикам.
В Competition Code o3-mini достигает все более высоких оценок Elo с увеличением усилий по рассуждению.

То же самое относится и к приведенному ниже тесту по программной инженерии.

Вот, пожалуй, и все! Я рекомендую вам самим попробовать o3-mini и посмотреть, превосходит ли она другие модели для STEM-рассуждений.
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений - я стараюсь делиться только полезной информацией.
Комментарии (36)
KionX
06.02.2025 13:26По моему опыту все эти модели "рассуждений" и тесты - полный мусор.
На моих задачах(программирование + немного математики) они рассуждают в среднем 6 секунд. И выдают абсолютно бесполезный ответ. А вот gemini-exp-1206 справляется лучше всех рассуждателей вместе взятых. Отмечу, что мои задачи как раз не типовые.NeyroEntuziast Автор
06.02.2025 13:26Да, я давно заметил, что каждый специалист находит нейросеть, лучше всего решающую его задачи, и пользуется ей. Хорошо, что есть выбор
KionX
06.02.2025 13:26Конечно. Но мой посыл был в том, что "рассуждатели" полностью провалились там, где должны были иметь преимущество. В решении нестандартных задач.
Hardcoin
06.02.2025 13:26Можете дать пример задачи? Жутко интересно.
KionX
06.02.2025 13:26Совсем недавно давал этой священной троице пару функций на оптимизацию:
1. Построение 2D AABB для области видимости. Это можно было легко переписать на SSE.
2. Построение 2D эллипса, сделанную тупо через Sin/Cos. Особенностями было использование TRIANGLELIST для D3D9 и поворот вокруг центра + поворот текстуры. Тут мне пришло на ум целых 6 возможных оптимизаций. Поворот 2х2 матрицей (проще чем Sin/Cos), рекуррентный поворот вектора, использование симметрии, вычисление только нужной части преобразований (если не все функции задействованы), использование TRIANGLEFAN, SSE.Ни один "думальщик" не подумал и не сделал ни одну оптимизацию. Но исковеркали форматирование, засрали комментариями, а o3 ещё поприкалывался надо мной(в духе: оптимизация тебе не поможет, если никто не сможет разобраться в коде. Сохрани нервы другим разрабам.)
Зато 1206 сразу сделал 2 (поворот матрицей, рекуррентный поворот вектора) и упомянул о TRIANGLEFAN, SSE для второй задачи (первую не предлагал) + нашёл бесполезную строку и ещё много о чём предупредил.Другой случай: Сделал автономного агента для экспериментирования над RNN. Gemini thinking оказался вообще не дееспособен. Копировал и запускал исходный код без изменений. Раз за разом. В надежде на изменения... безумие. Даже 1.5 flash лучше справлялся. Он реально экспериментировал, сравнивал, выбирал.
И так с любой моей задачей. Я пришёл к выводи что "думальщики" лишь имитируют размышления. А результат у них тот же или хуже обычных. Но ещё токенов больше тратят.
Dmitri-D
06.02.2025 13:26На чем обучали модель, тем она и оперирует. Сильного AI, который мог бы выйти за рамки обучающего пространства, просто еще не придумали.
Вы говорите на ваших задачах они не работают, значит ваших задач не было или они были очень ограничены и с плохим описанием.
burandby
06.02.2025 13:26Меня о3-мини убил, и не в хорошем смысле. Он в отличии от дипсика вообще не пытается решить задачу, пример: https://archive.ph/sROWk (ссылка на архив, работает без ВПН). Дипсик в отличии от "конкурента" хотя бы выдает куски кода которые помогают, а не разглагольствуют про общее описание
eeglab
06.02.2025 13:26У chatgpt в последнее время все модели так себя ведут, в итоге "из под палки" может начать "работать", но эти все костыли промтов начинают раздражать. В итоге deepseek ( который без лишних разговоров выполняет задание, может хуже , но не ленится) или claude (но у него ограничения по количеству запросов). Благо сейчас китайские qwen 2.5 max и hailuo подтягиваются уже до уровня chatgpt 4o (и о1)
Nunter
У меня одного Deepseek засыпает после 1-3 вопросов и не помогает ни разлогин ни F5
или он до сих пор в каматозе?
NeyroEntuziast Автор
Вы на сайте или через апи работаете?
Nunter
На сайте
NeyroEntuziast Автор
Может, разрабы ограничили количество запросов из-за большой нагрузки
Dhwtj
У них нет ресурсов
skiedr
Я что-то не нашёл, как платить за апи на сайте дипсика
vuidji
Тут: platform.deepseek.com
Vlad-Z
У меня на ПК не бывает такого, бывает сервер занят, но сейчас очень редко
Nunter
У меня обратная ситуация :)
1-2 вопроса решает и все, сервер занят, переход на другие учетки - ситуация такая же.. Все началось с хайпа вокруг дипсика и длится до сих пор. Интернет GPON 500 Mb,