Сравниваю ChatGPT-4o и ChatGPT-o3-mini-high / forpes.ru

Главная
Сравниваю ChatGPT-4o и ChatGPT-o3-mini-high

Сравниваю ChatGPT-4o и ChatGPT-o3-mini-high +5

08.02.2025 14:43

kosyakus 11 7200 Источник

В прошлой статье многие подметили некорректность сравнения Deepseek и ChatGPT-4o. Изначально идея была сравнить максимально доступные пользователю версии.

Но сперва всё же хочется посмотреть как с одной и той же задачей справляются разные версии ChatGPT. Я в прошлом году делала анимацию (да, мне прям нравится по выходным, когда отдыхаю, кодить что-то максимально ненапряжное), так вот я её сделала в ChatGPT-4o.

Не сказать, что я прям получила удовольствие, скорее наоборот, выбесилась знатно. А на этой неделе решила её повторить уже с ChatGPT-o3-mini-high. Разница, конечно, колоссальная. Но обо всём по порядку.

Дизайнер из меня, к сожалению, ужасный, поэтому все идеи я где-нибудь гуглю. Так вот, когда искала идею - наткнулась на прикольный сайт. Там есть всякие подборки простых анимаций, и мне понравилась вот такая:

Решила повторить её на SwiftUI. Скинула ссылку в gpt, написала что хочу сделать такую же анимацию и даже на всякий случай скопировала в чат так же CSS и HTML код.

И тут началось увлекательное приключение, переписывалась с ним несколько часов. В конце концов мы проделали вот такой путь:

По итогу я не смогла от чата добиться прям такой же анимации, сделала миллиард уточнений, присылала и скрины и код по 35 раз и уже словами описывала что мне нужно.

Самый последний запрос уже был почти похож, но всё равно не то.

В какой-то момент психанула и в итоге переделала всё сама. Получилось вот так:

А теперь магия. Ввожу точно такой же запрос (как в самом начале в ChatGPT-4o) в ChatGPT-o3-mini-high.

И получаю вот такой результат после первого же запроса.

Вот так напрямую обе версии gpt я никогда не сравнивала, не было нужды. То есть объективно понятно, что бесплатная версия хуже справляется.

Но если честно, была удивлена, что прям настолько хуже.

Поначалу были сомнения, что это просто я неправильно формулировала запрос и поэтому так долго не получалось добиться нужного результата. Но нет, ChatGPT-o3-mini-high действительно кодит гораздо лучше.

Конечно, я не открыла Америку этим сравнением, но вдруг кому-то интересно посмотреть как справляются обе версии с одной и той же задачей.

На всякий случай ссылка на гитхаб с моей финальной анимацией.

Ну и по традиции, ссылка на рилс в ТГ канале.

Комментарии (11)

griha_shershen
08.02.2025 15:05
#27896120
осталось сравнить все модели сразу и ещё джуна, мидла, сеньора и nocode решение
1. kosyakus Автор
  08.02.2025 15:05
  #27896142
  Да, в принципе, сравнения никогда не закончатся. Пока буду сравнивать одно- уже новые версии выйдут)
  
  Но вообще хочу теперь только DeepSeek R1 и ChatGPT-o3-mini-high сравнить. Но только не на анимации, а надо придумать какую-то задачу. Просто с анимацией нагляднее вроде выходит.
  1. mxr
    08.02.2025 15:05
    #27896192
    Почему бы не сравнить это с Claude 3.5 Sonnet? В последние недели появилось множество сравнительных обзоров ИИ-моделей, но решения от Anthropic часто остаются вне фокуса. На мой взгляд, Claude 3.5 Sonnet - одна из лучших нейросетей для работы с кодом на данный момент. Но ее продолжают активно игнорировать в подобных сравнениях, не понимаю почему так происходит.
    
    anydasa
    08.02.2025 15:05
    #27901756
    Плюсую. Пробовал в cline разные модели. Хотел сэкономить, т.к. sonnet не дешёвый получается. Но честно... все остальное совсем не то. Заметил, что я трачу на него уже четверть того что сам зарабатываю )) но работать быстрее стал. Не все идеально, но я готов платить за то что получаю
  1. kipzshady
    08.02.2025 15:05
    #27897326
    Можно еще сравнить Qwen

savostin
08.02.2025 15:05
#27896946
Такой вопрос, а Вы перелогинивались другим пользователем перед вторым тестом? Есть подозрение, что второй испотзовал знания первого. Можно еще в обратном порядке попробовать спросить.
1. kosyakus Автор
  08.02.2025 15:05
  #27897710
  Нет, я не перелогинивалась, но почти уверена, что он не использовал контекст предыдущего чата. Рассказываю: я, решив опять скоротать вечерок, заварила кофе, укуталась в пледик, предварительно нашла классную анимацию. Предвкушала отлично проведенные пару часов с chatGPT и XCode. Вставляю туда запрос и… первым же ответом он мне выдаёт готовый вариант анимации. Я ж даже кофе не успела глотнуть. И тут решила проверить, может анимация типа лёгкая, повторила запрос с костром - и он тоже как и описала в статье, повторил его быстро. Так и решила написать статью.
  
  Вижу, что многие пишут что нафиг надо такое сравнение, а мне было весело, раз уж вечер пошёл не по плану)
  1. Advisory
    08.02.2025 15:05
    #27899100
    Когда в одной сессии DeepSeek застопорился и «по кругу» стал предлагать одни и те же не работающие идеи для исправления ошибки в коде скрипта, я начал новую сессию. Отправил код и описал проблему. На скриншоте начало его ответа.
    
    upd.: кажется при ответе я не учел, что речь, видимо, идет о запросе к разным моделям. А в моем примере оба обсуждения одной проблемы относятся к одному и тому же DeepSeek'у.

PetkaKH
08.02.2025 15:05
#27897274
Серьезно? Давайте ещё больше контента, и сравним с ChatGPT 3.5. Можно ещё поставит дикпик (так веселее звучит) на компьютер с 4 Гб памяти и сравнить.

А если серьезно, то давно придумали бенчмарки для моделей, и там легко можно увидеть прирост в кодинге у 3o. Сейчас значение, не достижимое для других моделей. Но дорогая пока, пол года ждём и будет бесплатная.
1. Zeus42
  08.02.2025 15:05
  #27898132
  А что мешает сравнить модели не в бенчмарках а на пользовательских задачах? К тому же на доступных моделях. Не вижу в этом проблемы.
  1. PetkaKH
    08.02.2025 15:05
    #27902294
    В том что это не пользовательская задача, а задача высосаная из пальца. Окей, на реальных задачах будет возможно интересно, но тут одним промптом написать игру. И сравнивают не сравниваемое. Давайте сравним БелАЗ и запорожец, куда больше груза поместится.

Сравниваю ChatGPT-4o и ChatGPT-o3-mini-high +5

Комментарии (11)

kosyakus Автор

kosyakus Автор