Scar1984 / Getty Images
Scar1984 / Getty Images

Новая модель искусственного интеллекта GPT-4 от OpenAI совершила свой большой дебют и уже используется во всем, начиная от виртуального волонтёра для слабовидящих и заканчивая улучшенным ботом для изучения языков в Duolingo. Но что отличает GPT-4 от предыдущих версий, таких как ChatGPT и GPT-3.5? Вот пять наиболее существенных различий между этими популярными системами.

Прежде всего, что означает само название? Хотя ChatGPT изначально описывался как GPT-3.5 (и, таким образом, находился на несколько итераций впереди GPT-3), сам по себе он не является версией крупной языковой модели OpenAI, а скорее представляет собой чат‑интерфейс для той модели, которая его обеспечивает. Система ChatGPT, ставшая популярной за последние несколько месяцев, была способом взаимодействия с GPT-3.5, а теперь это способ взаимодействия с GPT-4

Итак, давайте перейдём к различиям между привычным чат‑ботом и его новым усовершенствованным преемником.

1. GPT-4 может видеть и понимать изображения

Самое заметное изменение этой универсальной системы машинного обучения заключается в том, что она является «мультимодальной», то есть может понимать более одного «модального» типа информации. ChatGPT и GPT-3 ограничивались текстом: они могли читать и писать, но это было практически всё (хотя и этого было достаточно для многих приложений).

GPT-4, однако, может анализировать изображения и находить на них релевантную информацию. Вы можете попросить его описать то, что изображено на картинке, но, что более важно, его понимание выходит за рамки этого. В примере, предоставленном OpenAI, GPT-4 объясняет шутку на картинс изображением смешного огромного разъема для iPhone, но еще более показательным является партнерство с Be My Eyes, приложением, используемым слепыми и слабовидящими людьми, которое позволяет волонтёрам описывать то, что видит их телефон.

Image Credits: Be My Eyes
Image Credits: Be My Eyes

В видео для Be My Eyes GPT-4 описывает узор на платье, определяет растение, объясняет, как добраться до определенного тренажера в спортзале, переводит этикетку (и предлагает рецепт), читает карту и выполняет ряд других задач, показывая, что оно действительно понимает содержание изображения, если задать правильные вопросы. Оно знает, как выглядит платье, но может не знать, подходит ли оно для собеседования.

2. GPT-4 сложнее обмануть

Несмотря на то, что современные чат‑боты часто дают правильные ответы, их легко сбить с толку. Небольшое уговоры могут убедить их в том, что они просто объясняют, что делает «плохой ИИ» или какая‑то другая выдумка, которая позволяет модели говорить обо всем и вся, порой странным и даже тревожным образом. Люди даже сотрудничают над «jailbreak» запросами, которые быстро выводят ChatGPT и других из их рамок.

С другой стороны, GPT-4 был обучен на множестве злонамеренных запросов, которые пользователи любезно предоставили OpenAI в течение последних одного‑двух лет. С этими данными новая модель гораздо лучше своих предшественников справляется с «фактичностью, управляемостью и отказом выходить за рамки предписанных ограничений».

Как описывает это OpenAI, GPT-3.5 (который работал с ChatGPT) был «пробным забегом» новой архитектуры обучения, и они применили полученные уроки к новой версии, которая была «беспрецедентно стабильной». Они также смогли лучше предсказать ее возможности, что привело к меньшему количеству сюрпризов.

3. GPT-4 обладает более долгой памятью

Большие языковые модели обучаются на миллионах веб‑страниц, книг и других текстовых данных, но когда они фактически общаются с пользователем, есть предел того, сколько информации они могут «держать в уме» (с чем можно согласиться). Этот предел для GPT-3.5 и старой версии ChatGPT составлял 4 096 «токенов», что примерно равно 8 000 словам или около четырех‑пяти страниц книги. Таким образом, модель теряла след событий после того, как они проходили далеко «назад» в ее функции внимания.

GPT-4 имеет максимальный размер токенов 32 768 — это 215, если вам интересно, почему число выглядит знакомым. Это примерно соответствует 64 000 словам или 50 страницам текста — достаточно для целой пьесы или рассказа.

Это означает, что в ходе разговора или генерации текста модель сможет помнить до 50 страниц. Таким образом, она будет помнить, о чем вы говорили 20 страниц назад, или, если пишет историю или эссе, модель может ссылаться на события, произошедшие 35 страниц назад. Это очень приблизительное описание того, как работают механизм внимания и подсчет токенов, но общая идея заключается в расширении памяти и возможностях, которые сопровождают его.

4. GPT-4 более многоязычен

Мир ИИ доминируют носители английского языка, и все, от данных до тестирования и научных статей, на этом языке. Однако возможности больших языковых моделей применимы к любому письменному языку и должны быть доступны на них.

GPT-4 делает шаг в этом направлении, продемонстрировав свою способность отвечать на тысячи вопросов с множественным выбором с высокой точностью на 26 языках, от итальянского до украинского и корейского. Он лучше всего справляется с романскими и германскими языками, но хорошо обобщает и на других языках.

Первоначальное тестирование языковых возможностей многообещающе, но далеко от полного принятия многоязычных возможностей; критерии тестирования были переведены с английского с самого начала, и вопросы с множественным выбором не являются полноценным представлением обычной речи. Однако GPT-4 отлично справился с задачей, для которой оно не было специально обучено, что указывает на возможность того, что GPT-4 будет гораздо более дружелюбным для носителей неанглийских языков.

5. У GPT-4 разные "личности"

Image Credits: razum / Shutterstock
Image Credits: razumShutterstock

«Управляемость» — интересное понятие в ИИ, оно означает способность менять свое поведение по требованию. Это может быть полезно, например, при игре в роли сочувствующего слушателя, или опасно, когда люди убеждают модель в том, что она злая или подавленная.

GPT-4 интегрирует управляемость более нативно, чем GPT-3.5, и пользователи смогут изменить «классическую личность ChatGPT с фиксированной многословностью, тоном и стилем» на что‑то более подходящее их потребностям. «В пределах разумного», команда быстро замечает, указывая на это как на самый простой способ заставить модель выйти из роли.

Это можно было сделать, активировав чат‑бота сообщениями типа «Представьте, что вы DM в настольной RPG» или «Ответьте так, как если бы вы были человеком, который проходит интервью для кабельных новостей». Но на самом деле вы просто давали предложения «по умолчанию» личности GPT-3.5. Теперь разработчики смогут закладывать точку зрения, стиль общения, тон или метод взаимодействия с самого начала.

Статья переведена с помощью GPT-4, без исправлений.

 Презентация.

Комментарии (29)


  1. Medeyko
    00.00.0000 00:00

    Интересно, чем вызвана такая арифметическая ошибка?

    4096 токенов = 8000 слов = 4-5 страниц
    32768 токенов = 64000 слов = 50 страниц?!
    Если бы во второй строке сохранялась та же самая пропорция, что и в первой, то получалось бы 32-40, а не 50 страниц.

    Эта ошибка заставляет меня подозревать, что Devin Coldeway может подсознательно завышать возможности GPT-4 по сравнению с GPT-3.5 и в других моментах.


    1. vanxant
      00.00.0000 00:00
      +15

      Так этот рекламный текст chatgpt и писал.


      1. kryvichh
        00.00.0000 00:00
        +5

        И на русский перевёл.


    1. vagon333
      00.00.0000 00:00

      Поставил задачу GPT-4 и он прошел в генерации кода дальше GPT-3.5, но тоже не закончил ответ до конца.


      Пример задачи

      Give me a source code of a class in C# language for .NET Framework 4.71:


      1. Use the following libraries:
        a. zip-file compression library with password protection
        b. GitLab library with access via access token
      2. create a class called containerService with the structure:
        a. containerServiceId (int)
        b. containerId (int)
        c. containerCode (string)
        d. serviceId (int)
        e. serviceName (string)
        f. serviceCode (string)
        g. serviceGitlabHttp (string)
        h. serviceGitlabAccessTokenName = “devops_validator_102”
        i. serviceGitlabAccessTokenValue = “glpat-3s_zM-gaoK1r4ksaxB5y”
      3. define a variable filterContainerCode (string)
      4. create a class named containerSubscribedServices with 3 instances of class containerService, where
        a. for instance 1 the serviceCode = “smart_doc_compliance”
        b. for instance 2 the serviceCode = “smart_doc_compliance_v3”
        c. for instance 2 the serviceCode = “emortgage_package_compliance”
      5. for all instances use the containerService.containerCode = filterContainerCode
      6. in system temporary folder create a folder called "package_forcontainer" + filterContainerCode
      7. create a log record about starting package files preparation
      8. loop through the list containerSubscribedServices and read into an instance, named containerSubscribedService
      9. for each instance of a list create a subfolder with the folded name, defined in variable containerSubscribedService.serviceCode
      10. connect to a GitLab project defined in variable containerSubscribedService.serviceGitlabHttp using the GitLab project access token from serviceGitlabAccessTokenValue
      11. from GitLab project read project files into the temporary subfolder, defined in variable containerSubscribedService.serviceCode
      12. when the loop is finished, create a log record about successful package files transfer
      13. define a variable packagePassword (string) = filterContainerCode in characters reverse order
      14. compress folder "package_forcontainer" + filterContainerCode into a zip file with password protection


      1. Gilka007
        00.00.0000 00:00

        А каким образом вы оплатили подписку ChatGPT plus? можете подсказать пожалуйста


        1. vagon333
          00.00.0000 00:00

          Хороший вопрос.
          Я в штатах.


        1. dimars08
          00.00.0000 00:00

          В телеге полно ботов для оформления us.вирт.карты


          1. Gilka007
            00.00.0000 00:00
            +2

            Да я сколько ищу ,по крайней мере в интернете, способы все неактуальные, отзывы накрученые, если есть проверенный способ могли бы название этого сервиса или бота подсказать?


            1. Art_orias
              00.00.0000 00:00

              Тоже интересно


    1. dyadyaSerezha
      00.00.0000 00:00

      Чем больше слов, тем меньше страницы.


    1. smrl
      00.00.0000 00:00

      Вы нашли простительную ошибку округления в 25%, но пропустили ошибку в 5 раз.

      8000 слов это вообще-то 20 книжных страниц.
      Похоже, чатбот в режиме фантазирования попутал слова с символами (английское wpm=5*символов в минуту)


  1. uhf
    00.00.0000 00:00
    +1

    составлял 4 096 "токенов", что примерно равно 8 000 словам

    Т.е. один токен в среднем обозначает два слова? Может, наоборот?


    1. vanxant
      00.00.0000 00:00
      -1

      Не, всякие там артикли, предлоги, союзы, технические местоимения и прочие модальные глаголы как раз примерно половину текста и составляют (в английском с его неразвитыми словоформами).


      1. uhf
        00.00.0000 00:00
        +1

        Посчитайте сами https://platform.openai.com/tokenizer


        1. baturinsky
          00.00.0000 00:00

          44 токена на 38 слов


        1. vanxant
          00.00.0000 00:00

          Да, действительно.

          Прям странно, откуда мне запомнилось про выкидывание служебных слов.


  1. VladimirFarshatov
    00.00.0000 00:00
    +3

    Ну .. сказочники, способные писать журналистские статьи на заданную проблематику, с обучением по некоторому обьему исходной информации прижились уже давненько. Здесь есть замечание про "обобщать информацию", что является некой претензией на ИИ. Остается следующий шаг: "активная генерация новой информации" на основе каталогизации и обощения с применением некого рандомного подхода. И последний шаг: активное формирование внутренней модели внешней среды на основе предыдущего механизма.

    И .. добро пожаловать в мир роботов и ИИ, где человек .. не нужен (но .. может так и правильно?!?)

    Проблема всего процесса в том что мало кто понимает реальную скорость роста экспоненциальных функций развития разных процессов во времени: Если стакан заполняется за 30 секунд некими бактериями, делящимися каждую секунду, то стакан был наполовину пуст всего лишь секунду назад!

    В приложении к проблеме ИИ: если Вам кажется, что пройдена только половина пути, то вторая половина .. может быть УЖЕ пройдена, пока Вы читали этот комментарий.


    1. keydach555
      00.00.0000 00:00

      В целом согласен, но такой экспоненциальный рост у гпт-4 начнется с момента, когда он получит доступ к собственному коду, а его способности улучшать этот код превзойдут способности всех его создателей - айтишников, тестеров, рлхв-шников, архитекторов, парсеров и всей той огромной толпы людей, которая сейчас этим занимается. А это, судя по презентации - произойдет еще не скоро


      1. vanxant
        00.00.0000 00:00

        Да как раз кода там до смешного мало, буквально тысячи строк кода, и на 95% это стандартные математические операции - что вы тут собрались улучшать? Весь трюк в архитектуре связей, способах обучения и тупо количестве нейронов.


        1. leventov
          00.00.0000 00:00

          Ну эту архитектуру как раз и можно улучшать. И улучшают уже с помощью ИИ, например: https://www.reddit.com/r/MachineLearning/comments/1138jpp/d_lion_an_optimizer_that_outperforms_adam/

          С улучшением архитектуры конечно проблема - очень долгий iteration time. В текущей парадигме он особо не ускориться. Но ИИ может найти и новые прорывные алгоритмы в других парадигмах, таких как neurosymbolic, graph NNs, online DL, etc.


  1. keydach555
    00.00.0000 00:00
    +2

    Вообще, меня поразил уровень перевода - если действительно в переводе не было исправлений, то это полностью человеческий уровень. Если у кого-нибудь есть доступ к gpt-4 с 32к контекстом, проведите эксперимент с худ переводом англ рассказа (уже переведенного человеком) страниц на 30-40, забив в систему условие что гпт - художественный переводчик и скормив ему образцы стиля этого человеческого переводчика из других рассказов. И тогда можно будет понять,насколько близок рубеж художественного перевода.


    1. smrl
      00.00.0000 00:00
      +2

      По-вашему, это вообще по-русски?
      "совершила свой большой дебют"
      "Мир ИИ доминируют носители английского языка"

      А тут вообще сохранился хоть какой-то смысл?
      "но далеко от полного принятия многоязычных возможностей"
      "команда быстро замечает, указывая на это как на самый простой способ заставить модель выйти из роли."

      Это почти наугад, тыкая в разные места статьи, начиная с первой же строки.
      Впрочем, как говорил один дворник Остапу Бендеру...


      1. keydach555
        00.00.0000 00:00

        "совершила дебют" - распространенное выражение, загуглите. "Мир ИИ" - ошибка на грани опечатки, смысл ясен, наоборот такие незначительные ошибки при сохранении смысла придают человечности тексту ) Я говорил немного о другом, об общем впечатлении от текста - есть общий стиль, интонация, обороты не пляшут, мысль ясна. Это качественный перевод. Проблемы, если они есть. ограничиваются единичными опечатками и смысловым содержанием оригинала, а не формой и стилем перевода.


        1. k4ir05
          00.00.0000 00:00

          используется во всем, начиная от виртуального волонтёра

          ChatGPT и GPT-3 ограничивались текстом: они могли читать и писать, но это было практически всё (хотя и этого было достаточно для многих приложений).

          А это тоже просто опечатки?


        1. IvanTes1
          00.00.0000 00:00
          +1

          Не знаю, может у меня проф. деформация, но у меня статья сразу вызвала ощущение гуглоперевода. Реально очень много корявых моментов, которые выглядят как калька с английского в лучшем случае. Машинный перевод как не справлялся с многозначными словами, так и не справляется до сих пор. В целом не вижу никакого отличия от того, что Гугл транслейт мог 5 лет назад...

          "..достаточно для многих приложений" — очевидно, в оригинале было "applications", то есть "сфер применения", а не "приложений".

          "Небольшое уговоры могут убедить их в том, что они просто объясняют, что делает «плохой ИИ» или какая‑то другая выдумка, которая позволяет модели говорить обо всем и вся, порой странным и даже тревожным образом." — это вообще на каком языке? Тут смысл с трудом улавливается, даже если знаешь, о чем речь.

          "Оно" — постоянно в тексте ИИ называют "оно", от англ. "it", хотя по-русски было бы правильно "он" (интеллект, чат-бот) или "она" (языковая модель, нейросесть)

          "быстро выводят ChatGPT и других из их рамок." — кого "других"? Другие языковые модели? Других ботов на основе GPT? "ChatGPT and others" на русском не звучит

          "модель теряла след событий после того, как они проходили далеко «назад» в ее функции внимания." — эм... события проходили назад в функции внимания, это на каком языке, опять же?..

          "хорошо обобщает и на других языках" — кого обобщает? Общается?

          "GPT-4 отлично справился с задачей, для которой оно не было специально обучено" — в одном и том же предложении сначала мужской род, потом средний...

          "вы просто давали предложения «по умолчанию» личности" — здесь имеется в виду, что вы не меняли личность бота, а лишь давали толчок в нужном направлении, но как же это криво сформулировано...

          Короче, как бы я ни мечтал автоматизировать своё ремесло, но с точки зрения переводчика/редактора это просто жесть, такое нельзя отдавать "в печать", грубо говоря. Серьёзно, если бы кандидат на переводчика сдал такую работу на тестировании, я бы ооочень сомневался, стоит ли ему дать проходной балл.


      1. Hardcoin
        00.00.0000 00:00
        +2

        Это лучше, чем перевод от редакторов хабра. С таким уровнем переводить вручную имеет смысл только профессиональным переводчикам - у них пока получается лучше.


  1. Dmrudnitsky
    00.00.0000 00:00
    +3

    Классно перевела. Работа переводчиков больше не нужна?


    1. vassabi
      00.00.0000 00:00

      ну, только если все вам просто перевод, без заверения печатью.


    1. enkryptor
      00.00.0000 00:00

      Если бы:

      Небольшое уговоры могут убедить их в том, что они просто объясняют, что делает «плохой ИИ» или какая‑то другая выдумка, которая позволяет модели говорить обо всем и вся, порой странным и даже тревожным образом.