В прошлой статье многие подметили некорректность сравнения Deepseek и ChatGPT-4o. Изначально идея была сравнить максимально доступные пользователю версии.

Но сперва всё же хочется посмотреть как с одной и той же задачей справляются разные версии ChatGPT. Я в прошлом году делала анимацию (да, мне прям нравится по выходным, когда отдыхаю, кодить что-то максимально ненапряжное), так вот я её сделала в ChatGPT-4o.

Не сказать, что я прям получила удовольствие, скорее наоборот, выбесилась знатно. А на этой неделе решила её повторить уже с ChatGPT-o3-mini-high. Разница, конечно, колоссальная. Но обо всём по порядку.

Дизайнер из меня, к сожалению, ужасный, поэтому все идеи я где-нибудь гуглю. Так вот, когда искала идею - наткнулась на прикольный сайт. Там есть всякие подборки простых анимаций, и мне понравилась вот такая:

Анимация костра
Анимация костра

Решила повторить её на SwiftUI. Скинула ссылку в gpt, написала что хочу сделать такую же анимацию и даже на всякий случай скопировала в чат так же CSS и HTML код.

И тут началось увлекательное приключение, переписывалась с ним несколько часов. В конце концов мы проделали вот такой путь:

ChatGPT-4o
ChatGPT-4o

По итогу я не смогла от чата добиться прям такой же анимации, сделала миллиард уточнений, присылала и скрины и код по 35 раз и уже словами описывала что мне нужно.

Самый последний запрос уже был почти похож, но всё равно не то.

В какой-то момент психанула и в итоге переделала всё сама. Получилось вот так:

Накодила сама
Накодила сама

А теперь магия. Ввожу точно такой же запрос (как в самом начале в ChatGPT-4o) в ChatGPT-o3-mini-high.

ChatGPT-o3-mini-high
ChatGPT-o3-mini-high

И получаю вот такой результат после первого же запроса.

Вот так напрямую обе версии gpt я никогда не сравнивала, не было нужды. То есть объективно понятно, что бесплатная версия хуже справляется.

Но если честно, была удивлена, что прям настолько хуже.

Поначалу были сомнения, что это просто я неправильно формулировала запрос и поэтому так долго не получалось добиться нужного результата. Но нет, ChatGPT-o3-mini-high действительно кодит гораздо лучше.

Конечно, я не открыла Америку этим сравнением, но вдруг кому-то интересно посмотреть как справляются обе версии с одной и той же задачей.

На всякий случай ссылка на гитхаб с моей финальной анимацией.

Ну и по традиции, ссылка на рилс в ТГ канале.

Комментарии (11)


  1. griha_shershen
    08.02.2025 15:05

    осталось сравнить все модели сразу и ещё джуна, мидла, сеньора и nocode решение


    1. kosyakus Автор
      08.02.2025 15:05

      Да, в принципе, сравнения никогда не закончатся. Пока буду сравнивать одно- уже новые версии выйдут)

      Но вообще хочу теперь только DeepSeek R1 и ChatGPT-o3-mini-high сравнить. Но только не на анимации, а надо придумать какую-то задачу. Просто с анимацией нагляднее вроде выходит.


      1. mxr
        08.02.2025 15:05

        Почему бы не сравнить это с Claude 3.5 Sonnet? В последние недели появилось множество сравнительных обзоров ИИ-моделей, но решения от Anthropic часто остаются вне фокуса. На мой взгляд, Claude 3.5 Sonnet - одна из лучших нейросетей для работы с кодом на данный момент. Но ее продолжают активно игнорировать в подобных сравнениях, не понимаю почему так происходит.


        1. anydasa
          08.02.2025 15:05

          Плюсую. Пробовал в cline разные модели. Хотел сэкономить, т.к. sonnet не дешёвый получается. Но честно... все остальное совсем не то. Заметил, что я трачу на него уже четверть того что сам зарабатываю )) но работать быстрее стал. Не все идеально, но я готов платить за то что получаю


      1. kipzshady
        08.02.2025 15:05

        Можно еще сравнить Qwen


  1. savostin
    08.02.2025 15:05

    Такой вопрос, а Вы перелогинивались другим пользователем перед вторым тестом? Есть подозрение, что второй испотзовал знания первого. Можно еще в обратном порядке попробовать спросить.


    1. kosyakus Автор
      08.02.2025 15:05

      Нет, я не перелогинивалась, но почти уверена, что он не использовал контекст предыдущего чата. Рассказываю: я, решив опять скоротать вечерок, заварила кофе, укуталась в пледик, предварительно нашла классную анимацию. Предвкушала отлично проведенные пару часов с chatGPT и XCode. Вставляю туда запрос и… первым же ответом он мне выдаёт готовый вариант анимации. Я ж даже кофе не успела глотнуть. И тут решила проверить, может анимация типа лёгкая, повторила запрос с костром - и он тоже как и описала в статье, повторил его быстро. Так и решила написать статью.

      Вижу, что многие пишут что нафиг надо такое сравнение, а мне было весело, раз уж вечер пошёл не по плану)


      1. Advisory
        08.02.2025 15:05

        Когда в одной сессии DeepSeek застопорился и «по кругу» стал предлагать одни и те же не работающие идеи для исправления ошибки в коде скрипта, я начал новую сессию. Отправил код и описал проблему. На скриншоте начало его ответа.

        upd.: кажется при ответе я не учел, что речь, видимо, идет о запросе к разным моделям. А в моем примере оба обсуждения одной проблемы относятся к одному и тому же DeepSeek'у.


  1. PetkaKH
    08.02.2025 15:05

    Серьезно? Давайте ещё больше контента, и сравним с ChatGPT 3.5. Можно ещё поставит дикпик (так веселее звучит) на компьютер с 4 Гб памяти и сравнить.

    А если серьезно, то давно придумали бенчмарки для моделей, и там легко можно увидеть прирост в кодинге у 3o. Сейчас значение, не достижимое для других моделей. Но дорогая пока, пол года ждём и будет бесплатная.


    1. Zeus42
      08.02.2025 15:05

      А что мешает сравнить модели не в бенчмарках а на пользовательских задачах? К тому же на доступных моделях. Не вижу в этом проблемы.


      1. PetkaKH
        08.02.2025 15:05

        В том что это не пользовательская задача, а задача высосаная из пальца. Окей, на реальных задачах будет возможно интересно, но тут одним промптом написать игру. И сравнивают не сравниваемое. Давайте сравним БелАЗ и запорожец, куда больше груза поместится.