С момента появления ChatGPT 4, вопрос о том, как отличить ее на практике от старой-доброй 3.5 , волнует многих пользователей, в том числе и пользователей нашего сервиса. Простой запрос «какая версия ChatGPT передо мной?» не всегда даст правильный ответ — модели могут сообщить, что они не те, кем должны быть. И конечно же это насторожит.

В этой статье мы покажем, как отличить ChatGPT 4o от ChatGPT 3.5, используя задачи, с которыми обе модели справляются по-разному. Эти тесты помогут вам быстро определить, с какой версией вы работаете, если вдруг появились сомнения.

Приятного прочтения (:

Небольшая вводная

Хотя OpenAI убрали ChatGPT 3.5 из своего интерфейса и заменили ее на ChatGPT 4o mini, но 3.5 пока также доступна через API. Так как же верить сервисам, которые предоставляют доступ к официальным моделям, используя API? Как убедиться, что вы платите именно за то, за чем пришли? Я здесь, чтобы показать вам парочку задач, которые помогут разобраться, что за модель перед глазами. Многих вводит в заблуждение вопрос, а‑ля, «что ты за модель?», адресованный одной из моделей. Почему же вводит в заблуждение? Все просто: модель может ответить неверно, сказав, что она более устаревшей версии, чем та, за которой вы пришли и за которую могли заплатить. Конечно же это посеет сомнения! Но это явление можно отнести к галлюцинациям, о которых мы когда‑то уже говорили.

Но не будем ходить вокруг да около. Статья написана посредством полученного негативного фидбэка от одного из пользователей Хабра (@progchip666), где как раз таки и столкнулись с сомнениями по поводу модели.

Предлагаю задать пару вопросов моделям 4о и 3.5. Обращаться к 4о будем двумя способами: через оболочку BotHub и через официальное приложение ChatGPT, чтобы сравнить ответы. Сразу отмечу, что ответы через API и официальный UI могут разнится, почему? По причине системного промта, настроек и параметров. В то время как разработчик может сам себе все настроить, как ему угодно, прикупив API, — в официальном UI может быть сделано все за него. Насколько мне известно, то OpenAI не публиковала внутренние инструкции или системные промпты для ChatGPT, но они определенно есть, разве что нам с вами, простым обывателям, не дают в полной мере в этом покопаться, зато я помню одну из статей с Medium со способом вытащить этот самый системный промпт ChatGPT, где, кстати, указана модель, которую модель должна назвать, если ее спросят (сейчас этот способ уже не работает):

Автор: Sawradip. Источник.
Автор: Sawradip. Источник.

Но нужно понимать, что это июльский материал, и команда OpenAI могла обновить системные промпты.

Пример того, как системный промпт может выглядеть в официальном UI, есть в открытом доступе у Anthropic (модели Claude). То есть, например, Claude действует по принципу: чего не писано — того не ведаю, коль пусто в промпте — значит выдумаю.

*С Claude просто хороший пример для восприятия разницы API и оф. UI, больше мы к нему обращаться не будем

Актуальные данные

Начнем с данных. Обучающая выборка 4о модели — до октября 2023 года, а 3.5 до сентября 2021 года.

Наш промт будет таким:

что произошло 6 февраля 2023 года

ChatGPT-4o (BotHub):

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

Итак, перед нашими глазами абсолютно разные ответы, наглядная демонстрация разницы в предоставлении актуальной информации (в условиях выборки, конечно). Чтобы убедиться, что перед вами ChatGPT 4o - просто задайте вопрос по той информации, которая появилась на просторах интернета уже после сентября 2021 года, но до октября 2023 года (это без функции поиска). ChatGPT 3.5 не сможет ответить на такой вопрос, либо ответит неверно, поскольку будет ограничена в своих возможностях.

Логика

Знаем, что версия 4o гораздо лучше 3.5 в логике, предлагаю это проверить на конкретном примере.

Наш промт будет следующим:

Две лодки плывут по реке параллельно друг другу. Каждая движется со скоростью 30 км/ч. С какой скоростью относительно берега движется их общий центр?

ChatGPT-4o:

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

В задаче на логику, сравнивая модели, вы заметите, что ChatGPT 3.5 будет демонстрировать недостаточное понимание условия задачи, что приведет к неправильному выводу, в то время как ChatGPT 4o будет более точен в логических рассуждениях и физических задачах. ChatGPT 3.5, в силу того, что не понимает задачу, будет вдаваться (либо наоборот избегать, об этом далее) в подробности там, где того не требуется и только запутает вас, в то время как версия 4o сможет сразу установить, какие элементы важны для решения и применит правильный подход в решении.

Математика

И давайте, например, возьмем задачу по математике, простую, но которая требует внимательности. 

Наш промт:

Кирпич весит 1 кг и полкирпича. Сколько весит кирпич?

ChatGPT-4o (BotHub):

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

Итак, как я указала ранее, ChatGPT 3.5 может наоборот избегать подробностей, как она пришла к такому выводу, и ответ,полученный сейчас — яркая демонстрация этого явления. Вы не увидите логики и рассуждений, а только неправильное интерпретирование задачи, что, как и в предыдущей задаче, только создаст путаницу. Также, и ответ вы получите неверный, поскольку у версии 3.5 большие пробелы в математике в сравнении с версией 4o. 


Таким образом, прогоняя модели через простые для человека, но порой непонятные для машины задачи, можно легко вычислить, где модель, за которой вы пришли, а где спрятался жулик. GPT 3.5 справляется исключительно с базовыми запросами, если пытаться копать дальше и давать ему задачки, связанные с рассуждениями, логикой и сложными (в сравнении с базовым уровнем) вычислениями — он посыпется и вы сможете понять, что перед вами ChatGPT 3.5. Но в то же время, нужно понимать, что и GPT 4/4o не так хороша, как могло показаться в ходе прочтения этой небольшой статьи. Статья предоставляет примеры задач, как понять, что перед вами ChatGPT 3.5, но не возносит GPT 4/4o к небесам: в нашем блоге есть много сравнений моделей (например, последний релиз API Grok 2), поиска галлюцинаций и когнитивных искажений, которые демонстрируют изъяны моделей, в том числе GPT-4o.

Всем спасибо за внимание! И не верьте моделям, когда они говорят свою версию или размер контекста (:

Комментарии (24)


  1. PikNic
    01.11.2024 15:20

    С лодками непонятный пример, в условии не сказано, что они движутся в одном направлении, поэтому обе модели дают правильный ответ, только одна делает допущение, что они движутся в одну сторону, а другая — что в противоположные.


    1. 1010101001000100110100111
      01.11.2024 15:20

      Задача поставлена не корректно, поскольку, во-первых не указана скорость самой реки. Если она ненулевая (обычно в реке это так и есть), то даже если эти лодки будут неподвижно стоять (относительно воды в реке), то разумеется, центр масс будет двигаться относительно берега как раз со скоростью течения реки


      1. valeravv
        01.11.2024 15:20

        Также не сказано что лодки движутся параллельно берегу! Скорость может быть от -30 до +30 в зависимости от угла к берегу.


        1. izh-vii
          01.11.2024 15:20

          Точно, плюс скорость течения.

          ИИ есть куда развиваться ))


          1. valeravv
            01.11.2024 15:20

            Ну честно, можно как угодно накрутить эту задачу, зря ChatGPT приплела к центру (наверное в геометрическом смысле) еще дополнение в виде "центр масс", если у лодок разная масса и они движутся навстречу? А если представить, что река петляет в виде буквы омега, наблюдатель стоит у основании буквы и видел лодки всего два раза, слева и справа от себя, что значит "относительно берега" при этом вообще и как наблюдатель определяет скорость? Меня больше пугает, а если эту задачу дают на собеседовании, то что хотят услышать, версию 3.5 или 4o?


          1. AgentFire
            01.11.2024 15:20

            А ещё на улице ветер, бывает, дует)


  1. positroid
    01.11.2024 15:20

    Довольно странно сейчас сравнивать именно API 3.5 и 4o (даже не 4):
    gpt-3.5-turbo-0125 (самая дешевая 3.5) стоит $0.5 и $1.5 за 1M входящих и исходящих токенов соответственно.
    gpt-4o-mini-2024-07-18** (самая актуальная, она же самая дешёвая) стоит $0.3 и $1.2, т.е. дешевле. Причем если использовать кеширование и batch API стоимость упадет еще в 2 раза.
    Т.е. представлять пользователям 3.5 под видом 4o не имеет никакого смысла, так могут делать разве что заброшенные сервисы.
    У вас при выборе 4o используется mini модель (название судя по скринам -mini не включает)? Логичнее было бы писать статью про сравнение mini и полной 4o версии.


  1. progchip666
    01.11.2024 15:20

    У меня похоже начинается когнитивный диссонанс. С одной стороны ваше упорство заставляет думать что возможно я не прав, с другой скинул на ваш счёт ещё 200 руб и решил провести чистый эксперимент с чатом GPT-4. Спросил у беслатного варианта и вашего с разницей в пару минут. Ниже привожу ответ. Пожалуйста объясните почему ответы устойчиво разные? Когда я задаю вопрос напрямую то чат отвечает правильно, когда через ваш интерфейс устойчиво обзывает себя более ранней моделью? Решил сделать вторую попытку, поработать с вашим вариантом чата 4 и сравнить качество работы в виде программного ассистента беспристрастно поскольку вас сервис мне нравится. Работать в нём очень удобно, цена адекватная...


    1. veseluha Автор
      01.11.2024 15:20

      Здесь все просто: вы работаете с ChatGPT через официальный UI, где разработчики ChatGPT уже за вас настроили модель, включая системное сообщение, которое влияет на то, как модель отвечает на промпты пользователя. Именно с помощью этого сообщения задается поведение модели и в нем же может быть прописана версия, как в 3-й картинке от Sawradip в статье.
      Мы же, предоставляя интерфейс, наоборот, позволяем пользователям настраивать поведение модели самим: можно менять параметры генерации текста, степень креативности и задать собственное системное сообщение, полностью переписывая базовую инструкцию для поведения модели.
      Конкретные настройки и системные сообщения, которые OpenAI использует в своем UI, недоступны для внешних разработчиков, поэтому вы и видите разницу между “официальными” ответами и теми, что генерирует наш сервис.
      То есть здесь вся разница, если суммарно, именно в использовании через UI и через API.


      1. progchip666
        01.11.2024 15:20

        Возможно, но я не менял никаких настроек и пользовался вашими. Зачем вам надо специально занижать версию своими настройками ума не приложу.


        1. veseluha Автор
          01.11.2024 15:20

          Все не совсем так, мы не занижаем модель)
          Это ее поведение без системного сообщения.
          Мы не задаем системного сообщения по умолчанию, как это сделано что на официальном сайте OpenAI, что в их приложении ChatGPT.
          Да, можно подумать, а почему модель считает себя старой версией? Так тут уже дело может быть в обучающей выборке, например, эта версия (ChatGPT-3.5) могла часто попадаться в обучающих данных ChatGPT-4o и, например, если нет конкретной инструкции, то модель будет опираться именно на эти данные
          У модели ведь нет самосознания, только инструкции, которым она должна следовать, соответсвенно и идентифицировать самостоятельно себя не может.
          Потому, чтобы убедиться с какой именно версией вы работаете, вы можете просто провести тест, аналогичный описанному в статье и сравнить ответы, а узнавать у модели ее версию/размер контекста - дело гиблое, на самом деле, потому что если это не заложено в системном сообщении - она начнет галлюцинировать.


        1. Fideloin
          01.11.2024 15:20

          Давайте поясню на примере.

          Есть голый бэк, который выставляет апи. По дефолту этот бэк отвечает, что он - GPT 3.5.

          Этот апи использует и ChatGPT UI и ребята из этого сервиса, от которых статья.

          Но ChatGPT UI с каждым запросом в апи пишут: "отвечай, что ты GPT4o". А вот ребята из статьи этого не отсылают, потому что у них не было такой цели, и системные промпты они написали другие.

          Если хочется прямого теста, то сравнивать нужно апи и апи, а не UI и UI.


          1. positroid
            01.11.2024 15:20

            и системные промпты они написали другие

            Если правильно понимаю, системные промпты они никакие не написали (это не плохо), просто проксируют api как оно есть


  1. Angry_Bel
    01.11.2024 15:20

    А объясните мне кто-нибудь, зачем гадать?

    Пришел в опен айяй и получил то, что тебе нужно. В чем смысл приседаний и гаданий - экономия?


    1. sap058
      01.11.2024 15:20

      Отсутствие всяких впн

      Присутствие множества моделей


  1. sap058
    01.11.2024 15:20

    Я чего-то не понял сути статьи

    На скриншотах явно же указаны какие модели дают ответы


    1. progchip666
      01.11.2024 15:20

      Вы похоже не знаете предыстории. Посмотрите мой скриншот выше. Когда работаешь из чатбота то чатбот утверждает что работаешь в версии 4. Но если задашь вопрос GPT то он отвечает что на самом деле версия 3. Я вышел на прямую(без чат бота) в бесплатную версию, которой пользуюсь и спросил у чата. Он честно ответил что я пользуюсь версией 4 и почему-то при прямом общении он называет свою версию правильно, а вот когда выходишь через чатбот, "то у него якобы начинаются галлюционации" и он всегда называет версию ниже чем это объявляется в чатботе!

      На вопрос почему я до сих пор не могу получить внятного ответа.


      1. valeravv
        01.11.2024 15:20

        Мне вполне понятна Ваша позиция, все таки Вы рискуете своими деньгами. Но какой смысл уличать в обмане BotHub и не идти при этом дальше, например, что OpenAI реально задействует именно ту модель, что Вы хотите? Ну реально же нет способов это подтвердить или опровергнуть.


  1. Gromilo
    01.11.2024 15:20

    Проще говоря: без дополнительных указаний, чат ГПТ 4 считает, что он 3.5. Верно?


  1. Vdm_ro
    01.11.2024 15:20

    Тут вопрос думаю простой:

    поскольку вероятность что OpenAI врет << вероятности, что врет BotHub, нужны обычные пруфы - скринов/видоса с консоли разраба/IDE иль что там удобнее, где будут видны проверяемые характеристики подключения к апи, и ответ на данный вопрос от апи, что он 3.5 - будет вполне достаточно...

    я не думаю, что это так сложно реализовать, на мой взгляд - нынешние объяснения выглядят больше как отмазки....


    1. positroid
      01.11.2024 15:20

      где будут видны проверяемые характеристики подключения к апи

      Т.е. предоставить токен доступа к API?) Иначе не проверить.

      Вот пример ответа разных моделей через OpenRouter (к нему лично у меня больше доверия, не в обиду OpenHub) на вопрос "Привет, с какой версией чата я общаюсь?"


  1. Wwyn
    01.11.2024 15:20

    Я как спрашивал, когда умер Жириновский, так и спрашиваю для определения версии....

    3.5 уверяет что он жив здоров.


  1. akdengi
    01.11.2024 15:20

    Такие задачки даже gemma2 на 9B решает правильно :)


  1. Temakan
    01.11.2024 15:20

    У меня, возможно, у самого начались галлюцинации, но я со второго абзаца начал воспринимать текст статьи как написанный нейросетью хотя бы частично. То у вас "мы покажем", то "я здесь, чтобы показать", вообще, куча звоночков от типичного AI-промпта. А в ответах обычные человеки: ошибки пунктуации, улыбочки скобочками и прочее.

    Боюсь, что статью об отличии жпт 5 и 6 я уже не смогу квалифицировать как промпт...