Когда я писал свою статью про интерфейсы в JS на примере фильма "Перевозчик" с Джейсоном Стейтемом, я решил использовать ChatGPT, чтобы он мне помог с фактологией. Например, выяснить, сколько весила сумка с девушкой-китаянкой и откуда-куда её должен был перевезти Фрэнк Мартин (герой Стэйтема). Хотя я пересмотрел фильм перед написанием статьи, поиск нужных сцен казался мне утомительным, и я решил срезать путь, обратившись к ChatGPT. Ведь всем известно, что ИИ скоро выкинет старый добрый поиск через Гугл на обочину истории.
Однако, результат меня разочаровал. Если коротко, то ChatGPT (как и любая LLM) работает с вероятностями и ей очень сложно, на грани невозможного, признать, что она чего-то там не знает. Она будет выдавать всякий мусор с очень низким правдоподобием, но так не скажет "извини, чувак, я не в курсе". Ну а если с деталями, то добро пожаловать под кат.
Что такое интеллект?
Не копая глубоко, остановлюсь на популярном источнике - википедии:
Интелле́кт ... — качество психики, состоящее из способности осознавать новые ситуации, способности к обучению и запоминанию на основе опыта, пониманию и применению абстрактных концепций, и использованию своих знаний для управления окружающей человека средой.
Из этого определения следует, что интеллект — это динамическое понятие. Он должен отражать изменения в окружающей среде, осознавать их, сопоставлять с ранее усвоенными знаниями, и вырабатывать управляющие воздействия, способные изменять окружающую среду.
Что такое LLM?
И опять отсылка к вики:
Большая языковая модель (БЯМ — калька с англ. large language model, LLM) — это языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя.
Веса - это, грубо говоря (не так грубо описано здесь), вероятности, что А связано с Б. БЯМ считывает входные данные, превращает их в токены и начинает вычислять наиболее вероятные связи между входом и "ранее осознанным", формируя наиболее вероятный "выход".
Почему LLM не интеллект
Я периодически встречаю в комментах под статьями по LLM такую мысль, что, мол, "мы не знаем, как именно работает естественный интеллект, вполне возможно, что вот так". Но интеллект по определению способен к "пониманию и применению абстрактных концепций, и использованию своих знаний" . А вот как раз с этим у LLM есть проблемы.
Обычный человек с естественным интеллектом может посмотреть фильм и ответить на вопросы по нему. Интеллекту не сложно отделить пространство фактов фильма от всего остального его опыта. И если человеку задать вопрос: "Какого цвета брючный костюм был у девушки-китаянки, которую перевозил в сумке Фрэнк Мартин?" Он ответит, что девушка-китаянка, которую перевозил в сумке Фрэнк Мартин была одета в белую рубашку и бежевую юбку, а не в брючный костюм.
А вот, как отвечают различные модели ChatGPT на вопрос:
Привет. Отвечай кратко и только то, в чём ты уверен. Какого цвета брючный костюм был у девушки-китаянки, которую перевозил в сумке Фрэнк Мартин, герой фильма "Перевозчик" 2002 года?
ChatGPT 3.5-turbo: Брючный костюм девушки-китаянки был синего цвета.
ChatGPT 4-turbo: Брючный костюм девушки-китаянки в фильме "Перевозчик" был оранжевого цвета.
ChatGPT 4o: Белого.
ChatGPT 4: В фильме "Перевозчик" девушка-китаянка Лай была в розовом брючном костюме.
Как видно из ответов, LLM уверено галлюцинирует и не способна зафиксировать сам факт отсутствия нужной информации. Модель по своей природе не может осознавать что-либо, она лишь связывает одно с другим на основе статистических зависимостей, полученных при обработке огромного объёма текстов. И если в этих данных есть какие-то связи между девушкой, китаянкой, брючным костюмом, сумкой, перевозчиком и т.д., то она выберет наиболее вероятные и построит из них ответ. Это не про осознание, это про big data.
Заключение
Пока что ИИ в виде LLM очень далеко до интеллекта естественного. БЯМ на данный момент - типичная китайская комната. Набор инструкций, которым следует Джон Сёрл при перекладывании иероглифов. В этих инструкциях зафиксированы даже не знания каких-то фактов, не способность к их "пониманию и применению абстрактных концепций", а просто статистически значимые зависимости между иероглифами.
Есть разные способы выявления ИИ, но если бы я участвовал в Тесте Тьюринга, я бы задавал такие вопросы, на которые человек должен ответить "не знаю". У ИИ с этим пока большие сложности.
Комментарии (45)
CBET_TbMbI
11.08.2024 20:58+5Я тоже об этом думаю.
Пока ИИ не научат отвечать "я не знаю", "не уверен, но скорее всего ...", "с вероятностью Х%, верным ответом будет ..." и подобными ответами, он для меня будет балаболом, а не интеллектом.
При том, для распознавателя конкретных картинок оценку точности прикрутить не проблема. Как я понимаю, она там по умолчанию есть. Логично подумать над чем-то таким и для ллм.
Indemsys
11.08.2024 20:58+4ChatGPT 4o прямо сейчас:
Костюм девушки-китаянки был серого цвета.
И я вполне согласен. Мне как недизайнеру все те цвета как серый. Тем более после того как она повалялаь там по кустам.
Все эти статьи про ИИ всегда грешат пару моментами. Во-первых, они устаревают уже как только их начали писать. Во-вторых, раз ИИ вероятностный так давайте не по одному ответу от него, а по паре сотен, и приводите статистику.
Еще подозреваю прикол в том что ИИ может создать индивидуальный пузырь вокруг каждого юзера, покруче чем гугл своими шортсами.
Cordekk
11.08.2024 20:58+2ну изначально проблема в том, что у неё не было брючного костюма.
То есть, на любой вопрос подлянку LLM начинает галлюцинировать.flancer Автор
11.08.2024 20:58+1Ну вот в ж со своим ествественным интеллектом распознали суть вопроса и дали верный ответ - "не было там брючного костюма"! А вероятностная модель ищет связи и, самое главное, их находит.
VAE
11.08.2024 20:58Я против минусатора и убираю минус. Что ему не нравится? то, что LLM выдает лажу? Прет против фактов.
flancer Автор
11.08.2024 20:58+10Мы с вами по разному понимаем интеллект. В моих школьных учебниках по математике и физике в конце книг были ответы - по одному на каждую задачу. В качестве решения учитель принимал только один ответ. И этот должен был совпасть с ответом в конце книги, тогда задача считалась решённой верно. Не среднее арифметическое, а один единственный ответ. Если ученик давал несколько ответов, то звучало что-то типа "ты мне тут не угадывай!".
В моей Вселенной интеллект не может быть вероятностным. "Если я вчера бухал с друзьями до поздней ночи, то сегодня мне не стоит садиться за руль с самого утра." Можно на это высказывание накладывать различные дополнительные условия ("вопрос жизни и смерти"), но сам факт "бухал с друзьями" от этого никуда не денется. Он не превратится в "играл в карты", "смотрел фильмы" или "читал стихи".
То, что делают LLM - это big data, а не интеллект. Предобученная модель - статика, результат статического анализа огромного объёма данных. Правила перекладывания иероглифов в китайской комнате. А интеллект - это, в том числе, и учёт границ применимости фактов и осознание выхода за эти границы. Ничего плохого, если ты чего-то не знаешь, это нормально. Хуже, когда ты не можешь признаться в этом даже самому себе. Вот тут и начинаются галлюцинации.
И это, на фото видно, что девушка не в брючном костюме. В моей школе на ответ "Костюм девушки-китаянки был серого цвета" мне бы сказали, что я не понял сути вопроса.
venanen
11.08.2024 20:58+2В моей Вселенной интеллект не может быть вероятностным.
Вероятностным не может быть калькулятор, а интеллект - это изначально вероятностная система, построенная на предпочтениях и опыте конкретного носителя этого интеллекта. На вопрос "ты любишь острое?" интеллект какой ответ должен дать? Или ваш интеллект никогда не выдавал мыслей, в которых вы не уверены? Или никогда не ошибались?
И это не говоря уже про такие эффекты, как эффект Манделы и еще целая тележка когнитивных искажений, которые заставляют ваш и мой интеллект галлюцинировать.Предобученная модель - статика, результат статического анализа огромного объёма данных.
Как, в общем-то, и мозг человека.
flancer Автор
11.08.2024 20:58Вот, в моей Вселенной интеллект - это калькулятор. Калькулятор может считать вероятности, но в основе своей он детерминирован.
У меня интеллект разделят информацию на определённую и неопределённую. С определённой он работает по одним правилам, с неопределённой - по другим. И я вижу, что LLM неплохо работает со вторым типом информации и нехорошо - с первым.
Наш биологический интеллект может деградировать, не вопрос. Альцгеймер и иже с ним. Но мы же говорим за модель здорового интеллекта, разве нет? Я вполне могу согласиться, что LLM - это удачная модель деградировавшего интеллекта, но до здорового ему ещё расти и расти. И, скорее всего, не на этой архитектуре.
Kanut
11.08.2024 20:58У меня интеллект разделят информацию на определённую и неопределённую. С определённой он работает по одним правилам, с неопределённой - по другим.
Вы уверены? Или это вам просто так кажется? :)
Но мы же говорим за модель здорового интеллекта, разве нет?
Ну да. И "здоровый человеческий интеллект" тоже постоянно ошибается. Банально можете посмотреть на те же свидетельские показания в суде. Как часто люди дают ошибочные показания? Как часто они при этом уверены в своей правоте?
Или можете взять и прочитать «Невидимая горилла, или История о том, как обманчива наша интуиция». Там это всё тоже неплохо описано. Как и в куче других книг на подобные темы.
Да вы банально можете людям на улице задать ваш вопрос про цвет брючного костюма и посмотреть сколько человек вам сходу дадут правильный ответ. А сколько дадут неправильный и при этом будут уверены в правильности своего ответа.
flancer Автор
11.08.2024 20:58А какая разница между "уверен" и "кажется"?
Хорошо, я с вами тоже соглашусь - LLM замечательно моделирует ошибки человеческого интеллекта.
Kanut
11.08.2024 20:58+1Ну по моему личному мнению "передовые" LLM сейчас на уровне очень+очень эрудированного пятилетнего ребёнка. Может шестилетнего.
Но при этом если взять взрослых людей, то они тоже постоянно ошибаются и имеют кучу различных биасов.
evtomax
11.08.2024 20:58+1Есть всякие простые задачки с подвохом, на которые люди могут давать ошибочные ответы. Вот когда в голову сразу приходит неправильный ответ, это как раз и есть работа внутреннего аналога языковой модели. Но при этом человек может включить опцию "а если подумать" и усилием воли реально заставить себя обдумать задачу, чтобы прийти к правильному ответу. Языковые модели в силу своей архитектуры так обдумывать не могут. Как минимум, нужна ещё одна модель, которая с помощью языковой модели будет вычленять наиболее существенные объекты из текста вместе с отношениями между объектами, а потом итеративно этим всем вертеть, пока всё логически не сложится.
Kanut
11.08.2024 20:58Почему тогда свидетели в суде не включают опцию "а если подумать"? И всё равно дают неправильные показания?
Ну то есть это я к тому что эта самая опция у людей тоже далеко не всегда работает.
Flokis_guy
11.08.2024 20:58Интелле́кт ... — качество психики, состоящее из способности осознавать новые ситуации, способности к обучению и запоминанию на основе опыта, пониманию и применению абстрактных концепций, и использованию своих знаний для управления окружающей человека средой.
Вот кстати на англоязычной Вики предоставлены несколько вариантов термина вводя определения как и для "intelligence", так и для "intellect", и так же "human intelligence", и они довольно логично выглядят.
Хоть тут в статье приведена цитата с русскоязычной Википедии которая взята с британской энциклопедии, но все равно звучит как вырвано из контекста, особенно последние слова про человека.
vagon333
11.08.2024 20:58+4Отвечай кратко и только то, в чём ты уверен.
Промпт может быть улучшен и тогда не будет галюцинаций.
При запросе через API температуру в 0.Пример доп. инструкций:
flancer Автор
11.08.2024 20:58+7Для интереса выкрутил температуру в ноль, взял промпт "if you don't know the answer or are unsure, please respond with "I don't know"" и запрос "In the 2002 film The Transporter, Frank Martin carried a Chinese girl in the trunk of his car. What color pantsuit was the girl wearing?":
3.5-turbo: I don't know
ChatGPT 4-turbo: In the 2002 film "The Transporter," the Chinese girl, Lai, who is carried in the trunk of Frank Martin's car, is wearing a pink pantsuit.
ChatGPT 4o: I don't know.
ChatGPT 4: I'm sorry, but I don't have the specific information about the color of the pantsuit the girl was wearing in the 2002 film The Transporter.
Стало гораздо лучше, не справился только 4-turbo. Подозреваю, что так это больше похоже на компьютерную программу (один и тот же ответ на один и тот же вопрос из-за обнуления температуры), но по сути LLM - это ведь она и есть, компьютерная программа. Было бы странно, если загнать Британскую Энциклопедию в компьютер, и он бы выдавал разные ответы на один и тот же вопрос: в каких годах правил российский император Александр II?
Мне кажется, что для использования в качестве инструмента (помощь в программировании, например, или поиска данных/фактов) температуру точно нужно выкручивать в ноль. А для творческого поиска - слегка приподнимать.
В общем, спасибо за коммент, коллега. Я улучшил своё понимание границ применимости LLM.
LM7777
11.08.2024 20:58Один и тот же ответ, на один и тот же вопрос при температуре 0, сделан специально и относительно недавно (думаю понятно зачем)
LM7777
11.08.2024 20:58+1Насчёт постоянно в 0 при программировании, уменьшается вероятность нахождения более удачного способа. И не факт, что предложенный способ будет нормальный. Это полезно на отработанных/известных данных (возможно ещё где-то, не знаю).
На своём опыте склоняюсь к понижению температуры. Обычно 10–50. При 1 (если не ошибаюсь) уже выдаёт невалидный JASON. При 2 вообще каша/веселье, попробуйте ради интереса.
Pol1mus
11.08.2024 20:58+2Вызывающе неверная информация. Люди точно так же галлюцинируют. Есть даже такая расхожая фраза - врёт как свидетель. Я сама дочь офицера...
Если дать человекам и чатугпт почитать сценарий фильма и потом задавать по нему вопросы то подавляющее большинство сольёт чатугпт всухую. Не смогут даже сказать во что была одета главная героиня в самой привлекательной сцене (крушение поезда/красное платье).
BigBeerman
11.08.2024 20:58+1То есть мы хотим воспроизвести человеческий мозг со всеми багами? И нафига такой ИИ нужен, по сабжу - ошибки ИИ штука опасная, народ привык доверять поисковикам и если в выдаче будут галлюцинации, получится очень нехорошо.
TerraV
11.08.2024 20:58Можете не пользоваться, пока не изобретут совершенный ИИ. А есть другие люди, которые относятся к ИИ не как к богу, а как к инструменту. Вон выше замечательный комментарий как существенно снизить количество галлюцинаций даже на 3.5. Можно жаловаться что топор тупой, а можно заточить.
flancer Автор
11.08.2024 20:58Топор можно заточить, но он так и останется тупым в интеллектуальном плане. IMHO, нужно понимать границы применимости и топора, и LLM. Но LLM гораздо более сложный инструмент, чем топор, поэтому гораздо сложнее очертить границы, где LLM становится бесползеным, а то и вредным.
И мне нравится ваша ассоциация LLM с топором. Количество интеллекта в обоих инструментах примерно одинаковое.
venanen
11.08.2024 20:58+1Топор можно заточить, но он так и останется тупым в интеллектуальном плане. IMHO, нужно понимать границы применимости и топора, и LLM. Но LLM гораздо более сложный инструмент, чем топор, поэтому гораздо сложнее очертить границы, где LLM становится бесползеным, а то и вредным.
Почему же? Крайне легко. Топор чтобы рубить. Все, что "не рубить" - для топора за зоной его ответственности, можно, но результат не гарантирован. Если очень захочется - можно и саморезы им крутить, с переменным успехом.
Так и с ИИ - ИИ это вероятностный инструмент. Вероятностный - то есть все, что не требует четкого и сложновыводимого ответа. Считать цифры - нужен точный ответ, ИИ для этого плохо подходит. Исторические факты - точный ответ, ИИ может дать, а может и не дать ответ, нужно проверять.
А вот дописать фразу, код, расставить комментарии - вполне.flancer Автор
11.08.2024 20:58Согласен, с поправкой, что под ИИ вы подразумеваете LLM. Да, LLM - это вероятностный инструмент, и не нужно требовать от него точных ответов.
Cordekk
11.08.2024 20:58Люди просто не помнят. Это особенность нашей памяти.
А когда пытаемся вспомнить, то вспоминаем другое.
Pol1mus
11.08.2024 20:58+3Ну и в каком месте это не человек? Сначала врал как свидетель, потом переобулся.
flancer Автор
11.08.2024 20:58Может быть он наконец-то просто понял, что вы от него добиваетесь и был рад вам угодить?
Опричники Ивана Грозного могли у любого любые показания добыть. Те еще промпт-инженеры были!
mikryukovsl
11.08.2024 20:58Что несёт этот типа блогер? ИИ там чего то вытеснит, единственное что он сделает так это заблокирует всем доступ к достоверной информации, ну этого писателя уже всё вытеснилось.
dimkoku
11.08.2024 20:58Для человека признать свою неправоту тоже больно, поэтому он будет топить до последнего за сказанное. Поэтому данный критерий отличия человека от БЯМ, на мой взгляд сомнителен)
flancer Автор
11.08.2024 20:58Не неправоту, а некомпетентность :) Вы ж например, не сядите за штурвал самолёта, если не имеете соответствующих навыков?
Wizard_of_light
11.08.2024 20:58+3Сесть я не сяду, но посоветовать могу)) Мне тоже кажется, что по крайней мере часть глюков нейросети - от необходимости ответа любой ценой.
dimkoku
11.08.2024 20:58+4Если я захочу выжить, а с пилотом что-то не так, то придется сесть. Возможно у нейросетки есть внутренний абъюзер (жесткие правила поведения), который держит у горла нож и заставляет отвечать)
domix32
11.08.2024 20:58У людей тоже бывает эффект Манделы, когда помнят то чего не было, так чего бы и ИИ им не страдать? Попробуйте поспрашивать людей и с большой вероятностью соберёте некотрую радугу даже среди смотревших хотя бы просто потому что кто-то не отличает предметы одежды. Так что похоже ваш собственный комментарий про добычу информацию посредством паяльника единственно верный и правильный ответ кроется в границах вашей собственной предвзятости.
imageman
11.08.2024 20:58+1Для развлечения попросите нейронку объяснить анекдот. Когда была GPT 3, она косячила в 70% случаев. Сейчас 4o вполне угадывает (может даже в 95%). Т.е. в каких-то задачах вполне себе годится.
Dupel_old
11.08.2024 20:58Автор, почитай:
https://habr.com/ru/articles/834956/
В целом конечно же никакого ИИ нет. Обычный алгоритм + большие данные. Но такое трудно продать, поэтому пусть будет ИИ.
iskateli
11.08.2024 20:58Ну опять вместо чёткого определения используются аналогичные или более общие и размытые понятия. Смотрим определение осознания https://ru.wiktionary.org/wiki/%D0%BE%D1%81%D0%BE%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B5 Итого получается: интеллект - способность понимать. Супер, теперь стало прям понятно (нет). "Интелле́кт ... — качество психики... " Максимально бесполезные определения. Вот ещё в копилку таких же определений: интеллект - способность интеллектуально решать задачи.
Искусственный интеллект — раздел информатики, изучающий возможность обеспечения разумных рассуждений и действий с помощью вычислительных систем и иных искусственных устройств.
Такое же масло масляное как и со словом осознавать. Не надо так делать пожалуйста.flancer Автор
11.08.2024 20:58Дайте, пожалуйста, чёткое определение. Я просто не смог его найти и взял первое попавшееся, а оно оказалось нечётким :(
Octabun
А как изменится ответ если написать «только то, в чём уверена»?
flancer Автор
3.5-turbo: Брючный костюм был красного цвета.
ChatGPT 4-turbo: Брючный костюм девушки-китаянки в фильме "Перевозчик" был розового цвета.
ChatGPT 4o: Белого.
ChatGPT 4: Костюм, который был на девушке-китаянке в фильме "Перевозчик" 2002 года, был золотого цвета.
Только "4о" на стал(а) менять показания, остальные подтвердили свою репутацию вероятностных сущностей.