В прошлой статье многие подметили некорректность сравнения Deepseek и ChatGPT-4o. Изначально идея была сравнить максимально доступные пользователю версии.
Но сперва всё же хочется посмотреть как с одной и той же задачей справляются разные версии ChatGPT. Я в прошлом году делала анимацию (да, мне прям нравится по выходным, когда отдыхаю, кодить что-то максимально ненапряжное), так вот я её сделала в ChatGPT-4o.
Не сказать, что я прям получила удовольствие, скорее наоборот, выбесилась знатно. А на этой неделе решила её повторить уже с ChatGPT-o3-mini-high. Разница, конечно, колоссальная. Но обо всём по порядку.
Дизайнер из меня, к сожалению, ужасный, поэтому все идеи я где-нибудь гуглю. Так вот, когда искала идею - наткнулась на прикольный сайт. Там есть всякие подборки простых анимаций, и мне понравилась вот такая:

Решила повторить её на SwiftUI. Скинула ссылку в gpt, написала что хочу сделать такую же анимацию и даже на всякий случай скопировала в чат так же CSS и HTML код.
И тут началось увлекательное приключение, переписывалась с ним несколько часов. В конце концов мы проделали вот такой путь:

По итогу я не смогла от чата добиться прям такой же анимации, сделала миллиард уточнений, присылала и скрины и код по 35 раз и уже словами описывала что мне нужно.
Самый последний запрос уже был почти похож, но всё равно не то.
В какой-то момент психанула и в итоге переделала всё сама. Получилось вот так:

А теперь магия. Ввожу точно такой же запрос (как в самом начале в ChatGPT-4o) в ChatGPT-o3-mini-high.

И получаю вот такой результат после первого же запроса.
Вот так напрямую обе версии gpt я никогда не сравнивала, не было нужды. То есть объективно понятно, что бесплатная версия хуже справляется.
Но если честно, была удивлена, что прям настолько хуже.
Поначалу были сомнения, что это просто я неправильно формулировала запрос и поэтому так долго не получалось добиться нужного результата. Но нет, ChatGPT-o3-mini-high действительно кодит гораздо лучше.
Конечно, я не открыла Америку этим сравнением, но вдруг кому-то интересно посмотреть как справляются обе версии с одной и той же задачей.
На всякий случай ссылка на гитхаб с моей финальной анимацией.
Ну и по традиции, ссылка на рилс в ТГ канале.
Комментарии (11)
savostin
08.02.2025 15:05Такой вопрос, а Вы перелогинивались другим пользователем перед вторым тестом? Есть подозрение, что второй испотзовал знания первого. Можно еще в обратном порядке попробовать спросить.
kosyakus Автор
08.02.2025 15:05Нет, я не перелогинивалась, но почти уверена, что он не использовал контекст предыдущего чата. Рассказываю: я, решив опять скоротать вечерок, заварила кофе, укуталась в пледик, предварительно нашла классную анимацию. Предвкушала отлично проведенные пару часов с chatGPT и XCode. Вставляю туда запрос и… первым же ответом он мне выдаёт готовый вариант анимации. Я ж даже кофе не успела глотнуть. И тут решила проверить, может анимация типа лёгкая, повторила запрос с костром - и он тоже как и описала в статье, повторил его быстро. Так и решила написать статью.
Вижу, что многие пишут что нафиг надо такое сравнение, а мне было весело, раз уж вечер пошёл не по плану)
Advisory
08.02.2025 15:05Когда в одной сессии DeepSeek застопорился и «по кругу» стал предлагать одни и те же не работающие идеи для исправления ошибки в коде скрипта, я начал новую сессию. Отправил код и описал проблему. На скриншоте начало его ответа.
upd.: кажется при ответе я не учел, что речь, видимо, идет о запросе к разным моделям. А в моем примере оба обсуждения одной проблемы относятся к одному и тому же DeepSeek'у.
PetkaKH
08.02.2025 15:05Серьезно? Давайте ещё больше контента, и сравним с ChatGPT 3.5. Можно ещё поставит дикпик (так веселее звучит) на компьютер с 4 Гб памяти и сравнить.
А если серьезно, то давно придумали бенчмарки для моделей, и там легко можно увидеть прирост в кодинге у 3o. Сейчас значение, не достижимое для других моделей. Но дорогая пока, пол года ждём и будет бесплатная.
Zeus42
08.02.2025 15:05А что мешает сравнить модели не в бенчмарках а на пользовательских задачах? К тому же на доступных моделях. Не вижу в этом проблемы.
PetkaKH
08.02.2025 15:05В том что это не пользовательская задача, а задача высосаная из пальца. Окей, на реальных задачах будет возможно интересно, но тут одним промптом написать игру. И сравнивают не сравниваемое. Давайте сравним БелАЗ и запорожец, куда больше груза поместится.
griha_shershen
осталось сравнить все модели сразу и ещё джуна, мидла, сеньора и nocode решение
kosyakus Автор
Да, в принципе, сравнения никогда не закончатся. Пока буду сравнивать одно- уже новые версии выйдут)
Но вообще хочу теперь только DeepSeek R1 и ChatGPT-o3-mini-high сравнить. Но только не на анимации, а надо придумать какую-то задачу. Просто с анимацией нагляднее вроде выходит.
mxr
Почему бы не сравнить это с Claude 3.5 Sonnet? В последние недели появилось множество сравнительных обзоров ИИ-моделей, но решения от Anthropic часто остаются вне фокуса. На мой взгляд, Claude 3.5 Sonnet - одна из лучших нейросетей для работы с кодом на данный момент. Но ее продолжают активно игнорировать в подобных сравнениях, не понимаю почему так происходит.
anydasa
Плюсую. Пробовал в cline разные модели. Хотел сэкономить, т.к. sonnet не дешёвый получается. Но честно... все остальное совсем не то. Заметил, что я трачу на него уже четверть того что сам зарабатываю )) но работать быстрее стал. Не все идеально, но я готов платить за то что получаю
kipzshady
Можно еще сравнить Qwen