o3-mini -лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)
o3-mini -лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)

Недавно OpenAI выпустила модели o3-mini и o3-mini-high, и теперь они доступны в ChatGPT и API.

o3-mini быстро справляется с продвинутыми рассуждениями, в то время как o3-mini-high отлично справляется с программированием и логикой.

Вот что удивительно: средний показатель по программированию у o3-mini-high на LiveBench составляет 82,74. Другие модели даже близко не подошли к этому показателю: o1 (69,69), Claude 3.5 Sonnet (67,13), deepseek-r1 (66,74).

o3-mini -лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)
o3-mini -лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)

o3-mini-high на данный момент является лучшей моделью для программирования

Что еще лучше, так это то, что даже бесплатные пользователи могут попробовать o3-mini в ChatGPT (выбрав кнопку Reason). У пользователей Plus и Team есть ограничение на 150 сообщений в день в o3-mini, в то время как пользователи Pro имеют неограниченный доступ к o3-mini и o3-mini-high.

Давайте узнаем, как можно использовать o3-mini для программирования, и посмотрим, насколько хорошо она работает по сравнению с другими моделями.

Примеры использования o3-mini для программирования

Тесты показывают, что o3-mini отлично подходит для программирования. В примерах ниже вы увидите, что многие пользователи смогли создать игры и небольшие приложения с помощью однократных промптов (и нескольких попыток).

Во-первых, вот игра-стрелялка, которую я легко создал с помощью кода на Python благодаря o3-mini. Я указал всего несколько инструкций в промпте, запустил сгенерированный код и быстро получил игру.

Пользователь X использовал o3-mini для создания простого клона Twitter. И все это за 8 секунд!

Другой пользователь X использовал o3-mini и DeepSeek для написания программы на Python, которая показывает, как мяч подпрыгивает внутри вращающегося шестиугольника (тест на гравитацию). Вот результат, который он получил.

Подобным образом можно привести множество других примеров o3-mini, показывающих, насколько хороша эта модель в программировании. Но не верьте мне на слово, давайте посмотрим на цифры!

o3-mini оптимизирована для STEM-рассуждений

Модель o1 от OpenAI остается их более широкой моделью рассуждений на основе общих знаний. При этом o3-mini представляет собой специализированную альтернативу для науки, математики и программирования. Кроме того, она снижает задержку o1-mini.

Ниже приведены некоторые выводы, сделанные на основе математической оценки:

  • При небольших усилиях, затрачиваемых на рассуждения, o3-mini достигает сопоставимой производительности с o1-mini

  • при средних рассуждениях o3-mini соответствует o1 в математике, программировании и науке, а также обеспечивает более быстрые ответы

  • при больших усилиях в рассуждениях o3-mini превосходит o1

Однако LiveBench показывает несколько иные результаты в математике.

Что касается программирования, LiveBech показывает, что o3-mini превосходит другие модели (deepseek-r1, o1, claude-3.5-sonnet и др.) даже при средних рассуждениях. При высоком уровне аргументации o3-mini увеличивает свое преимущество, достигая значительно более высоких показателей по ключевым метрикам.

В Competition Code o3-mini достигает все более высоких оценок Elo с увеличением усилий по рассуждению.

То же самое относится и к приведенному ниже тесту по программной инженерии.

Вот, пожалуй, и все! Я рекомендую вам самим попробовать o3-mini и посмотреть, превосходит ли она другие модели для STEM-рассуждений.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений - я стараюсь делиться только полезной информацией.

Комментарии (36)


  1. Nunter
    06.02.2025 13:26

    У меня одного Deepseek засыпает после 1-3 вопросов и не помогает ни разлогин ни F5
    или он до сих пор в каматозе?


    1. NeyroEntuziast Автор
      06.02.2025 13:26

      Вы на сайте или через апи работаете?


      1. Nunter
        06.02.2025 13:26

        На сайте


        1. NeyroEntuziast Автор
          06.02.2025 13:26

          Может, разрабы ограничили количество запросов из-за большой нагрузки


          1. Dhwtj
            06.02.2025 13:26

            У них нет ресурсов


      1. skiedr
        06.02.2025 13:26

        Я что-то не нашёл, как платить за апи на сайте дипсика


        1. vuidji
          06.02.2025 13:26

          Тут: platform.deepseek.com


    1. Vlad-Z
      06.02.2025 13:26

      У меня на ПК не бывает такого, бывает сервер занят, но сейчас очень редко


      1. Nunter
        06.02.2025 13:26

        У меня обратная ситуация :)
        1-2 вопроса решает и все, сервер занят, переход на другие учетки - ситуация такая же.. Все началось с хайпа вокруг дипсика и длится до сих пор. Интернет GPON 500 Mb,


  1. KionX
    06.02.2025 13:26

    По моему опыту все эти модели "рассуждений" и тесты - полный мусор.
    На моих задачах(программирование + немного математики) они рассуждают в среднем 6 секунд. И выдают абсолютно бесполезный ответ. А вот gemini-exp-1206 справляется лучше всех рассуждателей вместе взятых. Отмечу, что мои задачи как раз не типовые.


    1. NeyroEntuziast Автор
      06.02.2025 13:26

      Да, я давно заметил, что каждый специалист находит нейросеть, лучше всего решающую его задачи, и пользуется ей. Хорошо, что есть выбор


      1. KionX
        06.02.2025 13:26

        Конечно. Но мой посыл был в том, что "рассуждатели" полностью провалились там, где должны были иметь преимущество. В решении нестандартных задач.


        1. Hardcoin
          06.02.2025 13:26

          Можете дать пример задачи? Жутко интересно.


          1. KionX
            06.02.2025 13:26

            Совсем недавно давал этой священной троице пару функций на оптимизацию:
            1. Построение 2D AABB для области видимости. Это можно было легко переписать на SSE.
            2. Построение 2D эллипса, сделанную тупо через Sin/Cos. Особенностями было использование TRIANGLELIST для D3D9 и поворот вокруг центра + поворот текстуры. Тут мне пришло на ум целых 6 возможных оптимизаций. Поворот 2х2 матрицей (проще чем Sin/Cos), рекуррентный поворот вектора, использование симметрии, вычисление только нужной части преобразований (если не все функции задействованы), использование TRIANGLEFAN, SSE.

            Ни один "думальщик" не подумал и не сделал ни одну оптимизацию. Но исковеркали форматирование, засрали комментариями, а o3 ещё поприкалывался надо мной(в духе: оптимизация тебе не поможет, если никто не сможет разобраться в коде. Сохрани нервы другим разрабам.)
            Зато 1206 сразу сделал 2 (поворот матрицей, рекуррентный поворот вектора) и упомянул о TRIANGLEFAN, SSE для второй задачи (первую не предлагал) + нашёл бесполезную строку и ещё много о чём предупредил.

            Другой случай: Сделал автономного агента для экспериментирования над RNN. Gemini thinking оказался вообще не дееспособен. Копировал и запускал исходный код без изменений. Раз за разом. В надежде на изменения... безумие. Даже 1.5 flash лучше справлялся. Он реально экспериментировал, сравнивал, выбирал.

            И так с любой моей задачей. Я пришёл к выводи что "думальщики" лишь имитируют размышления. А результат у них тот же или хуже обычных. Но ещё токенов больше тратят.


            1. Dmitri-D
              06.02.2025 13:26

              На чем обучали модель, тем она и оперирует. Сильного AI, который мог бы выйти за рамки обучающего пространства, просто еще не придумали.
              Вы говорите на ваших задачах они не работают, значит ваших задач не было или они были очень ограничены и с плохим описанием.


  1. burandby
    06.02.2025 13:26

    Меня о3-мини убил, и не в хорошем смысле. Он в отличии от дипсика вообще не пытается решить задачу, пример: https://archive.ph/sROWk (ссылка на архив, работает без ВПН). Дипсик в отличии от "конкурента" хотя бы выдает куски кода которые помогают, а не разглагольствуют про общее описание


    1. eeglab
      06.02.2025 13:26

      У chatgpt в последнее время все модели так себя ведут, в итоге "из под палки" может начать "работать", но эти все костыли промтов начинают раздражать. В итоге deepseek ( который без лишних разговоров выполняет задание, может хуже , но не ленится) или claude (но у него ограничения по количеству запросов). Благо сейчас китайские qwen 2.5 max и hailuo подтягиваются уже до уровня chatgpt 4o (и о1)