o3-mini -лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)
o3-mini -лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)

Недавно OpenAI выпустила модели o3-mini и o3-mini-high, и теперь они доступны в ChatGPT и API.

o3-mini быстро справляется с продвинутыми рассуждениями, в то время как o3-mini-high отлично справляется с программированием и логикой.

Вот что удивительно: средний показатель по программированию у o3-mini-high на LiveBench составляет 82,74. Другие модели даже близко не подошли к этому показателю: o1 (69,69), Claude 3.5 Sonnet (67,13), deepseek-r1 (66,74).

o3-mini -лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)
o3-mini -лучшая модель для программирования на данный момент (лучше, чем DeepSeek R1)

o3-mini-high на данный момент является лучшей моделью для программирования

Что еще лучше, так это то, что даже бесплатные пользователи могут попробовать o3-mini в ChatGPT (выбрав кнопку Reason). У пользователей Plus и Team есть ограничение на 150 сообщений в день в o3-mini, в то время как пользователи Pro имеют неограниченный доступ к o3-mini и o3-mini-high.

Давайте узнаем, как можно использовать o3-mini для программирования, и посмотрим, насколько хорошо она работает по сравнению с другими моделями.

Примеры использования o3-mini для программирования

Тесты показывают, что o3-mini отлично подходит для программирования. В примерах ниже вы увидите, что многие пользователи смогли создать игры и небольшие приложения с помощью однократных промптов (и нескольких попыток).

Во-первых, вот игра-стрелялка, которую я легко создал с помощью кода на Python благодаря o3-mini. Я указал всего несколько инструкций в промпте, запустил сгенерированный код и быстро получил игру.

Пользователь X использовал o3-mini для создания простого клона Twitter. И все это за 8 секунд!

Другой пользователь X использовал o3-mini и DeepSeek для написания программы на Python, которая показывает, как мяч подпрыгивает внутри вращающегося шестиугольника (тест на гравитацию). Вот результат, который он получил.

Подобным образом можно привести множество других примеров o3-mini, показывающих, насколько хороша эта модель в программировании. Но не верьте мне на слово, давайте посмотрим на цифры!

o3-mini оптимизирована для STEM-рассуждений

Модель o1 от OpenAI остается их более широкой моделью рассуждений на основе общих знаний. При этом o3-mini представляет собой специализированную альтернативу для науки, математики и программирования. Кроме того, она снижает задержку o1-mini.

Ниже приведены некоторые выводы, сделанные на основе математической оценки:

  • При небольших усилиях, затрачиваемых на рассуждения, o3-mini достигает сопоставимой производительности с o1-mini

  • при средних рассуждениях o3-mini соответствует o1 в математике, программировании и науке, а также обеспечивает более быстрые ответы

  • при больших усилиях в рассуждениях o3-mini превосходит o1

Однако LiveBench показывает несколько иные результаты в математике.

Что касается программирования, LiveBech показывает, что o3-mini превосходит другие модели (deepseek-r1, o1, claude-3.5-sonnet и др.) даже при средних рассуждениях. При высоком уровне аргументации o3-mini увеличивает свое преимущество, достигая значительно более высоких показателей по ключевым метрикам.

В Competition Code o3-mini достигает все более высоких оценок Elo с увеличением усилий по рассуждению.

То же самое относится и к приведенному ниже тесту по программной инженерии.

Вот, пожалуй, и все! Я рекомендую вам самим попробовать o3-mini и посмотреть, превосходит ли она другие модели для STEM-рассуждений.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений - я стараюсь делиться только полезной информацией.

Комментарии (12)


  1. Nunter
    06.02.2025 13:26

    У меня одного Deepseek засыпает после 1-3 вопросов и не помогает ни разлогин ни F5
    или он до сих пор в каматозе?


    1. NeyroEntuziast Автор
      06.02.2025 13:26

      Вы на сайте или через апи работаете?


      1. Nunter
        06.02.2025 13:26

        На сайте


        1. NeyroEntuziast Автор
          06.02.2025 13:26

          Может, разрабы ограничили количество запросов из-за большой нагрузки


      1. skiedr
        06.02.2025 13:26

        Я что-то не нашёл, как платить за апи на сайте дипсика


        1. vuidji
          06.02.2025 13:26

          Тут: platform.deepseek.com


  1. KionX
    06.02.2025 13:26

    По моему опыту все эти модели "рассуждений" и тесты - полный мусор.
    На моих задачах(программирование + немного математики) они рассуждают в среднем 6 секунд. И выдают абсолютно бесполезный ответ. А вот gemini-exp-1206 справляется лучше всех рассуждателей вместе взятых. Отмечу, что мои задачи как раз не типовые.


    1. NeyroEntuziast Автор
      06.02.2025 13:26

      Да, я давно заметил, что каждый специалист находит нейросеть, лучше всего решающую его задачи, и пользуется ей. Хорошо, что есть выбор


      1. KionX
        06.02.2025 13:26

        Конечно. Но мой посыл был в том, что "рассуждатели" полностью провалились там, где должны были иметь преимущество. В решении нестандартных задач.


        1. Hardcoin
          06.02.2025 13:26

          Можете дать пример задачи? Жутко интересно.


  1. burandby
    06.02.2025 13:26

    Меня о3-мини убил, и не в хорошем смысле. Он в отличии от дипсика вообще не пытается решить задачу, пример: https://archive.ph/sROWk (ссылка на архив, работает без ВПН). Дипсик в отличии от "конкурента" хотя бы выдает куски кода которые помогают, а не разглагольствуют про общее описание


    1. eeglab
      06.02.2025 13:26

      У chatgpt в последнее время все модели так себя ведут, в итоге "из под палки" может начать "работать", но эти все костыли промтов начинают раздражать. В итоге deepseek ( который без лишних разговоров выполняет задание, может хуже , но не ленится) или claude (но у него ограничения по количеству запросов). Благо сейчас китайские qwen 2.5 max и hailuo подтягиваются уже до уровня chatgpt 4o (и о1)