Новая модель искусственного интеллекта GPT-4 от OpenAI совершила свой большой дебют и уже используется во всем, начиная от виртуального волонтёра для слабовидящих и заканчивая улучшенным ботом для изучения языков в Duolingo. Но что отличает GPT-4 от предыдущих версий, таких как ChatGPT и GPT-3.5? Вот пять наиболее существенных различий между этими популярными системами.
Прежде всего, что означает само название? Хотя ChatGPT изначально описывался как GPT-3.5 (и, таким образом, находился на несколько итераций впереди GPT-3), сам по себе он не является версией крупной языковой модели OpenAI, а скорее представляет собой чат‑интерфейс для той модели, которая его обеспечивает. Система ChatGPT, ставшая популярной за последние несколько месяцев, была способом взаимодействия с GPT-3.5, а теперь это способ взаимодействия с GPT-4
Итак, давайте перейдём к различиям между привычным чат‑ботом и его новым усовершенствованным преемником.
1. GPT-4 может видеть и понимать изображения
Самое заметное изменение этой универсальной системы машинного обучения заключается в том, что она является «мультимодальной», то есть может понимать более одного «модального» типа информации. ChatGPT и GPT-3 ограничивались текстом: они могли читать и писать, но это было практически всё (хотя и этого было достаточно для многих приложений).
GPT-4, однако, может анализировать изображения и находить на них релевантную информацию. Вы можете попросить его описать то, что изображено на картинке, но, что более важно, его понимание выходит за рамки этого. В примере, предоставленном OpenAI, GPT-4 объясняет шутку на картинс изображением смешного огромного разъема для iPhone, но еще более показательным является партнерство с Be My Eyes, приложением, используемым слепыми и слабовидящими людьми, которое позволяет волонтёрам описывать то, что видит их телефон.
В видео для Be My Eyes GPT-4 описывает узор на платье, определяет растение, объясняет, как добраться до определенного тренажера в спортзале, переводит этикетку (и предлагает рецепт), читает карту и выполняет ряд других задач, показывая, что оно действительно понимает содержание изображения, если задать правильные вопросы. Оно знает, как выглядит платье, но может не знать, подходит ли оно для собеседования.
2. GPT-4 сложнее обмануть
Несмотря на то, что современные чат‑боты часто дают правильные ответы, их легко сбить с толку. Небольшое уговоры могут убедить их в том, что они просто объясняют, что делает «плохой ИИ» или какая‑то другая выдумка, которая позволяет модели говорить обо всем и вся, порой странным и даже тревожным образом. Люди даже сотрудничают над «jailbreak» запросами, которые быстро выводят ChatGPT и других из их рамок.
С другой стороны, GPT-4 был обучен на множестве злонамеренных запросов, которые пользователи любезно предоставили OpenAI в течение последних одного‑двух лет. С этими данными новая модель гораздо лучше своих предшественников справляется с «фактичностью, управляемостью и отказом выходить за рамки предписанных ограничений».
Как описывает это OpenAI, GPT-3.5 (который работал с ChatGPT) был «пробным забегом» новой архитектуры обучения, и они применили полученные уроки к новой версии, которая была «беспрецедентно стабильной». Они также смогли лучше предсказать ее возможности, что привело к меньшему количеству сюрпризов.
3. GPT-4 обладает более долгой памятью
Большие языковые модели обучаются на миллионах веб‑страниц, книг и других текстовых данных, но когда они фактически общаются с пользователем, есть предел того, сколько информации они могут «держать в уме» (с чем можно согласиться). Этот предел для GPT-3.5 и старой версии ChatGPT составлял 4 096 «токенов», что примерно равно 8 000 словам или около четырех‑пяти страниц книги. Таким образом, модель теряла след событий после того, как они проходили далеко «назад» в ее функции внимания.
GPT-4 имеет максимальный размер токенов 32 768 — это 215, если вам интересно, почему число выглядит знакомым. Это примерно соответствует 64 000 словам или 50 страницам текста — достаточно для целой пьесы или рассказа.
Это означает, что в ходе разговора или генерации текста модель сможет помнить до 50 страниц. Таким образом, она будет помнить, о чем вы говорили 20 страниц назад, или, если пишет историю или эссе, модель может ссылаться на события, произошедшие 35 страниц назад. Это очень приблизительное описание того, как работают механизм внимания и подсчет токенов, но общая идея заключается в расширении памяти и возможностях, которые сопровождают его.
4. GPT-4 более многоязычен
Мир ИИ доминируют носители английского языка, и все, от данных до тестирования и научных статей, на этом языке. Однако возможности больших языковых моделей применимы к любому письменному языку и должны быть доступны на них.
GPT-4 делает шаг в этом направлении, продемонстрировав свою способность отвечать на тысячи вопросов с множественным выбором с высокой точностью на 26 языках, от итальянского до украинского и корейского. Он лучше всего справляется с романскими и германскими языками, но хорошо обобщает и на других языках.
Первоначальное тестирование языковых возможностей многообещающе, но далеко от полного принятия многоязычных возможностей; критерии тестирования были переведены с английского с самого начала, и вопросы с множественным выбором не являются полноценным представлением обычной речи. Однако GPT-4 отлично справился с задачей, для которой оно не было специально обучено, что указывает на возможность того, что GPT-4 будет гораздо более дружелюбным для носителей неанглийских языков.
5. У GPT-4 разные "личности"
«Управляемость» — интересное понятие в ИИ, оно означает способность менять свое поведение по требованию. Это может быть полезно, например, при игре в роли сочувствующего слушателя, или опасно, когда люди убеждают модель в том, что она злая или подавленная.
GPT-4 интегрирует управляемость более нативно, чем GPT-3.5, и пользователи смогут изменить «классическую личность ChatGPT с фиксированной многословностью, тоном и стилем» на что‑то более подходящее их потребностям. «В пределах разумного», команда быстро замечает, указывая на это как на самый простой способ заставить модель выйти из роли.
Это можно было сделать, активировав чат‑бота сообщениями типа «Представьте, что вы DM в настольной RPG» или «Ответьте так, как если бы вы были человеком, который проходит интервью для кабельных новостей». Но на самом деле вы просто давали предложения «по умолчанию» личности GPT-3.5. Теперь разработчики смогут закладывать точку зрения, стиль общения, тон или метод взаимодействия с самого начала.
Статья переведена с помощью GPT-4, без исправлений.
Комментарии (29)
uhf
00.00.0000 00:00+1составлял 4 096 "токенов", что примерно равно 8 000 словам
Т.е. один токен в среднем обозначает два слова? Может, наоборот?
vanxant
00.00.0000 00:00-1Не, всякие там артикли, предлоги, союзы, технические местоимения и прочие модальные глаголы как раз примерно половину текста и составляют (в английском с его неразвитыми словоформами).
uhf
00.00.0000 00:00+1Посчитайте сами https://platform.openai.com/tokenizer
vanxant
00.00.0000 00:00Да, действительно.
Прям странно, откуда мне запомнилось про выкидывание служебных слов.
VladimirFarshatov
00.00.0000 00:00+3Ну .. сказочники, способные писать журналистские статьи на заданную проблематику, с обучением по некоторому обьему исходной информации прижились уже давненько. Здесь есть замечание про "обобщать информацию", что является некой претензией на ИИ. Остается следующий шаг: "активная генерация новой информации" на основе каталогизации и обощения с применением некого рандомного подхода. И последний шаг: активное формирование внутренней модели внешней среды на основе предыдущего механизма.
И .. добро пожаловать в мир роботов и ИИ, где человек .. не нужен (но .. может так и правильно?!?)
Проблема всего процесса в том что мало кто понимает реальную скорость роста экспоненциальных функций развития разных процессов во времени: Если стакан заполняется за 30 секунд некими бактериями, делящимися каждую секунду, то стакан был наполовину пуст всего лишь секунду назад!
В приложении к проблеме ИИ: если Вам кажется, что пройдена только половина пути, то вторая половина .. может быть УЖЕ пройдена, пока Вы читали этот комментарий.
keydach555
00.00.0000 00:00В целом согласен, но такой экспоненциальный рост у гпт-4 начнется с момента, когда он получит доступ к собственному коду, а его способности улучшать этот код превзойдут способности всех его создателей - айтишников, тестеров, рлхв-шников, архитекторов, парсеров и всей той огромной толпы людей, которая сейчас этим занимается. А это, судя по презентации - произойдет еще не скоро
vanxant
00.00.0000 00:00Да как раз кода там до смешного мало, буквально тысячи строк кода, и на 95% это стандартные математические операции - что вы тут собрались улучшать? Весь трюк в архитектуре связей, способах обучения и тупо количестве нейронов.
leventov
00.00.0000 00:00Ну эту архитектуру как раз и можно улучшать. И улучшают уже с помощью ИИ, например: https://www.reddit.com/r/MachineLearning/comments/1138jpp/d_lion_an_optimizer_that_outperforms_adam/
С улучшением архитектуры конечно проблема - очень долгий iteration time. В текущей парадигме он особо не ускориться. Но ИИ может найти и новые прорывные алгоритмы в других парадигмах, таких как neurosymbolic, graph NNs, online DL, etc.
keydach555
00.00.0000 00:00+2Вообще, меня поразил уровень перевода - если действительно в переводе не было исправлений, то это полностью человеческий уровень. Если у кого-нибудь есть доступ к gpt-4 с 32к контекстом, проведите эксперимент с худ переводом англ рассказа (уже переведенного человеком) страниц на 30-40, забив в систему условие что гпт - художественный переводчик и скормив ему образцы стиля этого человеческого переводчика из других рассказов. И тогда можно будет понять,насколько близок рубеж художественного перевода.
smrl
00.00.0000 00:00+2По-вашему, это вообще по-русски?
"совершила свой большой дебют"
"Мир ИИ доминируют носители английского языка"А тут вообще сохранился хоть какой-то смысл?
"но далеко от полного принятия многоязычных возможностей"
"команда быстро замечает, указывая на это как на самый простой способ заставить модель выйти из роли."Это почти наугад, тыкая в разные места статьи, начиная с первой же строки.
Впрочем, как говорил один дворник Остапу Бендеру...keydach555
00.00.0000 00:00"совершила дебют" - распространенное выражение, загуглите. "Мир ИИ" - ошибка на грани опечатки, смысл ясен, наоборот такие незначительные ошибки при сохранении смысла придают человечности тексту ) Я говорил немного о другом, об общем впечатлении от текста - есть общий стиль, интонация, обороты не пляшут, мысль ясна. Это качественный перевод. Проблемы, если они есть. ограничиваются единичными опечатками и смысловым содержанием оригинала, а не формой и стилем перевода.
k4ir05
00.00.0000 00:00используется во всем, начиная от виртуального волонтёра
ChatGPT и GPT-3 ограничивались текстом: они могли читать и писать, но это было практически всё (хотя и этого было достаточно для многих приложений).
А это тоже просто опечатки?
IvanTes1
00.00.0000 00:00+1Не знаю, может у меня проф. деформация, но у меня статья сразу вызвала ощущение гуглоперевода. Реально очень много корявых моментов, которые выглядят как калька с английского в лучшем случае. Машинный перевод как не справлялся с многозначными словами, так и не справляется до сих пор. В целом не вижу никакого отличия от того, что Гугл транслейт мог 5 лет назад...
"..достаточно для многих приложений" — очевидно, в оригинале было "applications", то есть "сфер применения", а не "приложений".
"Небольшое уговоры могут убедить их в том, что они просто объясняют, что делает «плохой ИИ» или какая‑то другая выдумка, которая позволяет модели говорить обо всем и вся, порой странным и даже тревожным образом." — это вообще на каком языке? Тут смысл с трудом улавливается, даже если знаешь, о чем речь.
"Оно" — постоянно в тексте ИИ называют "оно", от англ. "it", хотя по-русски было бы правильно "он" (интеллект, чат-бот) или "она" (языковая модель, нейросесть)
"быстро выводят ChatGPT и других из их рамок." — кого "других"? Другие языковые модели? Других ботов на основе GPT? "ChatGPT and others" на русском не звучит
"модель теряла след событий после того, как они проходили далеко «назад» в ее функции внимания." — эм... события проходили назад в функции внимания, это на каком языке, опять же?..
"хорошо обобщает и на других языках" — кого обобщает? Общается?
"GPT-4 отлично справился с задачей, для которой оно не было специально обучено" — в одном и том же предложении сначала мужской род, потом средний...
"вы просто давали предложения «по умолчанию» личности" — здесь имеется в виду, что вы не меняли личность бота, а лишь давали толчок в нужном направлении, но как же это криво сформулировано...
Короче, как бы я ни мечтал автоматизировать своё ремесло, но с точки зрения переводчика/редактора это просто жесть, такое нельзя отдавать "в печать", грубо говоря. Серьёзно, если бы кандидат на переводчика сдал такую работу на тестировании, я бы ооочень сомневался, стоит ли ему дать проходной балл.
Hardcoin
00.00.0000 00:00+2Это лучше, чем перевод от редакторов хабра. С таким уровнем переводить вручную имеет смысл только профессиональным переводчикам - у них пока получается лучше.
Dmrudnitsky
00.00.0000 00:00+3Классно перевела. Работа переводчиков больше не нужна?
enkryptor
00.00.0000 00:00Если бы:
Небольшое уговоры могут убедить их в том, что они просто объясняют, что делает «плохой ИИ» или какая‑то другая выдумка, которая позволяет модели говорить обо всем и вся, порой странным и даже тревожным образом.
Medeyko
Интересно, чем вызвана такая арифметическая ошибка?
4096 токенов = 8000 слов = 4-5 страниц
32768 токенов = 64000 слов = 50 страниц?!
Если бы во второй строке сохранялась та же самая пропорция, что и в первой, то получалось бы 32-40, а не 50 страниц.
Эта ошибка заставляет меня подозревать, что Devin Coldeway может подсознательно завышать возможности GPT-4 по сравнению с GPT-3.5 и в других моментах.
vanxant
Так этот рекламный текст chatgpt и писал.
kryvichh
И на русский перевёл.
vagon333
Поставил задачу GPT-4 и он прошел в генерации кода дальше GPT-3.5, но тоже не закончил ответ до конца.
Give me a source code of a class in C# language for .NET Framework 4.71:
a. zip-file compression library with password protection
b. GitLab library with access via access token
a. containerServiceId (int)
b. containerId (int)
c. containerCode (string)
d. serviceId (int)
e. serviceName (string)
f. serviceCode (string)
g. serviceGitlabHttp (string)
h. serviceGitlabAccessTokenName = “devops_validator_102”
i. serviceGitlabAccessTokenValue = “glpat-3s_zM-gaoK1r4ksaxB5y”
a. for instance 1 the serviceCode = “smart_doc_compliance”
b. for instance 2 the serviceCode = “smart_doc_compliance_v3”
c. for instance 2 the serviceCode = “emortgage_package_compliance”
Gilka007
А каким образом вы оплатили подписку ChatGPT plus? можете подсказать пожалуйста
vagon333
Хороший вопрос.
Я в штатах.
dimars08
В телеге полно ботов для оформления us.вирт.карты
Gilka007
Да я сколько ищу ,по крайней мере в интернете, способы все неактуальные, отзывы накрученые, если есть проверенный способ могли бы название этого сервиса или бота подсказать?
Art_orias
Тоже интересно
dyadyaSerezha
Чем больше слов, тем меньше страницы.
smrl
Вы нашли простительную ошибку округления в 25%, но пропустили ошибку в 5 раз.
8000 слов это вообще-то 20 книжных страниц.
Похоже, чатбот в режиме фантазирования попутал слова с символами (английское wpm=5*символов в минуту)