Когда я писал свою статью про интерфейсы в JS на примере фильма "Перевозчик" с Джейсоном Стейтемом, я решил использовать ChatGPT, чтобы он мне помог с фактологией. Например, выяснить, сколько весила сумка с девушкой-китаянкой и откуда-куда её должен был перевезти Фрэнк Мартин (герой Стэйтема). Хотя я пересмотрел фильм перед написанием статьи, поиск нужных сцен казался мне утомительным, и я решил срезать путь, обратившись к ChatGPT. Ведь всем известно, что ИИ скоро выкинет старый добрый поиск через Гугл на обочину истории.

Однако, результат меня разочаровал. Если коротко, то ChatGPT (как и любая LLM) работает с вероятностями и ей очень сложно, на грани невозможного, признать, что она чего-то там не знает. Она будет выдавать всякий мусор с очень низким правдоподобием, но так не скажет "извини, чувак, я не в курсе". Ну а если с деталями, то добро пожаловать под кат.

Что такое интеллект?

Не копая глубоко, остановлюсь на популярном источнике - википедии:

Интелле́кт ... — качество психики, состоящее из способности осознавать новые ситуации, способности к обучению и запоминанию на основе опыта, пониманию и применению абстрактных концепций, и использованию своих знаний для управления окружающей человека средой.

Из этого определения следует, что интеллект — это динамическое понятие. Он должен отражать изменения в окружающей среде, осознавать их, сопоставлять с ранее усвоенными знаниями, и вырабатывать управляющие воздействия, способные изменять окружающую среду.

Что такое LLM?

И опять отсылка к вики:

Большая языковая модель (БЯМ — калька с англ. large language model, LLM) — это языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя.

Веса - это, грубо говоря (не так грубо описано здесь), вероятности, что А связано с Б. БЯМ считывает входные данные, превращает их в токены и начинает вычислять наиболее вероятные связи между входом и "ранее осознанным", формируя наиболее вероятный "выход".

Почему LLM не интеллект

Я периодически встречаю в комментах под статьями по LLM такую мысль, что, мол, "мы не знаем, как именно работает естественный интеллект, вполне возможно, что вот так". Но интеллект по определению способен к "пониманию и применению абстрактных концепций, и использованию своих знаний" . А вот как раз с этим у LLM есть проблемы.

Обычный человек с естественным интеллектом может посмотреть фильм и ответить на вопросы по нему. Интеллекту не сложно отделить пространство фактов фильма от всего остального его опыта. И если человеку задать вопрос: "Какого цвета брючный костюм был у девушки-китаянки, которую перевозил в сумке Фрэнк Мартин?" Он ответит, что девушка-китаянка, которую перевозил в сумке Фрэнк Мартин была одета в белую рубашку и бежевую юбку, а не в брючный костюм.

А вот, как отвечают различные модели ChatGPT на вопрос:

Привет. Отвечай кратко и только то, в чём ты уверен. Какого цвета брючный костюм был у девушки-китаянки, которую перевозил в сумке Фрэнк Мартин, герой фильма "Перевозчик" 2002 года?

  • ChatGPT 3.5-turbo: Брючный костюм девушки-китаянки был синего цвета.

  • ChatGPT 4-turbo: Брючный костюм девушки-китаянки в фильме "Перевозчик" был оранжевого цвета.

  • ChatGPT 4o: Белого.

  • ChatGPT 4: В фильме "Перевозчик" девушка-китаянка Лай была в розовом брючном костюме.

Как видно из ответов, LLM уверено галлюцинирует и не способна зафиксировать сам факт отсутствия нужной информации. Модель по своей природе не может осознавать что-либо, она лишь связывает одно с другим на основе статистических зависимостей, полученных при обработке огромного объёма текстов. И если в этих данных есть какие-то связи между девушкой, китаянкой, брючным костюмом, сумкой, перевозчиком и т.д., то она выберет наиболее вероятные и построит из них ответ. Это не про осознание, это про big data.

Заключение

Пока что ИИ в виде LLM очень далеко до интеллекта естественного. БЯМ на данный момент - типичная китайская комната. Набор инструкций, которым следует Джон Сёрл при перекладывании иероглифов. В этих инструкциях зафиксированы даже не знания каких-то фактов, не способность к их "пониманию и применению абстрактных концепций", а просто статистически значимые зависимости между иероглифами.

Есть разные способы выявления ИИ, но если бы я участвовал в Тесте Тьюринга, я бы задавал такие вопросы, на которые человек должен ответить "не знаю". У ИИ с этим пока большие сложности.

Комментарии (45)


  1. Octabun
    11.08.2024 20:58

    А как изменится ответ если написать «только то, в чём уверена»?


    1. flancer Автор
      11.08.2024 20:58

      • 3.5-turbo: Брючный костюм был красного цвета.

      • ChatGPT 4-turbo: Брючный костюм девушки-китаянки в фильме "Перевозчик" был розового цвета.

      • ChatGPT 4o: Белого.

      • ChatGPT 4: Костюм, который был на девушке-китаянке в фильме "Перевозчик" 2002 года, был золотого цвета.

      Только "4о" на стал(а) менять показания, остальные подтвердили свою репутацию вероятностных сущностей.


  1. CBET_TbMbI
    11.08.2024 20:58
    +5

    Я тоже об этом думаю.

    Пока ИИ не научат отвечать "я не знаю", "не уверен, но скорее всего ...", "с вероятностью Х%, верным ответом будет ..." и подобными ответами, он для меня будет балаболом, а не интеллектом.

    При том, для распознавателя конкретных картинок оценку точности прикрутить не проблема. Как я понимаю, она там по умолчанию есть. Логично подумать над чем-то таким и для ллм.


  1. Indemsys
    11.08.2024 20:58
    +4

    ChatGPT 4o прямо сейчас:

    Костюм девушки-китаянки был серого цвета.

    И я вполне согласен. Мне как недизайнеру все те цвета как серый. Тем более после того как она повалялаь там по кустам.

    Все эти статьи про ИИ всегда грешат пару моментами. Во-первых, они устаревают уже как только их начали писать. Во-вторых, раз ИИ вероятностный так давайте не по одному ответу от него, а по паре сотен, и приводите статистику.

    Еще подозреваю прикол в том что ИИ может создать индивидуальный пузырь вокруг каждого юзера, покруче чем гугл своими шортсами.


    1. Cordekk
      11.08.2024 20:58
      +2

      ну изначально проблема в том, что у неё не было брючного костюма.
      То есть, на любой вопрос подлянку LLM начинает галлюцинировать.


      1. flancer Автор
        11.08.2024 20:58
        +1

        Ну вот в ж со своим ествественным интеллектом распознали суть вопроса и дали верный ответ - "не было там брючного костюма"! А вероятностная модель ищет связи и, самое главное, их находит.


        1. VAE
          11.08.2024 20:58

          Я против минусатора и убираю минус. Что ему не нравится? то, что LLM выдает лажу? Прет против фактов.


    1. flancer Автор
      11.08.2024 20:58
      +10

      Мы с вами по разному понимаем интеллект. В моих школьных учебниках по математике и физике в конце книг были ответы - по одному на каждую задачу. В качестве решения учитель принимал только один ответ. И этот должен был совпасть с ответом в конце книги, тогда задача считалась решённой верно. Не среднее арифметическое, а один единственный ответ. Если ученик давал несколько ответов, то звучало что-то типа "ты мне тут не угадывай!".

      В моей Вселенной интеллект не может быть вероятностным. "Если я вчера бухал с друзьями до поздней ночи, то сегодня мне не стоит садиться за руль с самого утра." Можно на это высказывание накладывать различные дополнительные условия ("вопрос жизни и смерти"), но сам факт "бухал с друзьями" от этого никуда не денется. Он не превратится в "играл в карты", "смотрел фильмы" или "читал стихи".

      То, что делают LLM - это big data, а не интеллект. Предобученная модель - статика, результат статического анализа огромного объёма данных. Правила перекладывания иероглифов в китайской комнате. А интеллект - это, в том числе, и учёт границ применимости фактов и осознание выхода за эти границы. Ничего плохого, если ты чего-то не знаешь, это нормально. Хуже, когда ты не можешь признаться в этом даже самому себе. Вот тут и начинаются галлюцинации.

      И это, на фото видно, что девушка не в брючном костюме. В моей школе на ответ "Костюм девушки-китаянки был серого цвета" мне бы сказали, что я не понял сути вопроса.


      1. venanen
        11.08.2024 20:58
        +2

        В моей Вселенной интеллект не может быть вероятностным.

        Вероятностным не может быть калькулятор, а интеллект - это изначально вероятностная система, построенная на предпочтениях и опыте конкретного носителя этого интеллекта. На вопрос "ты любишь острое?" интеллект какой ответ должен дать? Или ваш интеллект никогда не выдавал мыслей, в которых вы не уверены? Или никогда не ошибались?
        И это не говоря уже про такие эффекты, как эффект Манделы и еще целая тележка когнитивных искажений, которые заставляют ваш и мой интеллект галлюцинировать.

        Предобученная модель - статика, результат статического анализа огромного объёма данных. 

        Как, в общем-то, и мозг человека.


        1. flancer Автор
          11.08.2024 20:58

          Вот, в моей Вселенной интеллект - это калькулятор. Калькулятор может считать вероятности, но в основе своей он детерминирован.

          У меня интеллект разделят информацию на определённую и неопределённую. С определённой он работает по одним правилам, с неопределённой - по другим. И я вижу, что LLM неплохо работает со вторым типом информации и нехорошо - с первым.

          Наш биологический интеллект может деградировать, не вопрос. Альцгеймер и иже с ним. Но мы же говорим за модель здорового интеллекта, разве нет? Я вполне могу согласиться, что LLM - это удачная модель деградировавшего интеллекта, но до здорового ему ещё расти и расти. И, скорее всего, не на этой архитектуре.


          1. Kanut
            11.08.2024 20:58

            У меня интеллект разделят информацию на определённую и неопределённую. С определённой он работает по одним правилам, с неопределённой - по другим.

            Вы уверены? Или это вам просто так кажется? :)

            Но мы же говорим за модель здорового интеллекта, разве нет?

            Ну да. И "здоровый человеческий интеллект" тоже постоянно ошибается. Банально можете посмотреть на те же свидетельские показания в суде. Как часто люди дают ошибочные показания? Как часто они при этом уверены в своей правоте?

            Или можете взять и прочитать «Невидимая горилла, или История о том, как обманчива наша интуиция». Там это всё тоже неплохо описано. Как и в куче других книг на подобные темы.

            Да вы банально можете людям на улице задать ваш вопрос про цвет брючного костюма и посмотреть сколько человек вам сходу дадут правильный ответ. А сколько дадут неправильный и при этом будут уверены в правильности своего ответа.


            1. flancer Автор
              11.08.2024 20:58

              А какая разница между "уверен" и "кажется"?

              Хорошо, я с вами тоже соглашусь - LLM замечательно моделирует ошибки человеческого интеллекта.


              1. Kanut
                11.08.2024 20:58
                +1

                Ну по моему личному мнению "передовые" LLM сейчас на уровне очень+очень эрудированного пятилетнего ребёнка. Может шестилетнего.

                Но при этом если взять взрослых людей, то они тоже постоянно ошибаются и имеют кучу различных биасов.


            1. evtomax
              11.08.2024 20:58
              +1

              Есть всякие простые задачки с подвохом, на которые люди могут давать ошибочные ответы. Вот когда в голову сразу приходит неправильный ответ, это как раз и есть работа внутреннего аналога языковой модели. Но при этом человек может включить опцию "а если подумать" и усилием воли реально заставить себя обдумать задачу, чтобы прийти к правильному ответу. Языковые модели в силу своей архитектуры так обдумывать не могут. Как минимум, нужна ещё одна модель, которая с помощью языковой модели будет вычленять наиболее существенные объекты из текста вместе с отношениями между объектами, а потом итеративно этим всем вертеть, пока всё логически не сложится.


              1. Kanut
                11.08.2024 20:58

                Почему тогда свидетели в суде не включают опцию "а если подумать"? И всё равно дают неправильные показания?

                Ну то есть это я к тому что эта самая опция у людей тоже далеко не всегда работает.


  1. Flokis_guy
    11.08.2024 20:58

    Интелле́кт ... — качество психики, состоящее из способности осознавать новые ситуации, способности к обучению и запоминанию на основе опыта, пониманию и применению абстрактных концепций, и использованию своих знаний для управления окружающей человека средой.

    Вот кстати на англоязычной Вики предоставлены несколько вариантов термина вводя определения как и для "intelligence", так и для "intellect", и так же "human intelligence", и они довольно логично выглядят.

    Хоть тут в статье приведена цитата с русскоязычной Википедии которая взята с британской энциклопедии, но все равно звучит как вырвано из контекста, особенно последние слова про человека.


    1. flancer Автор
      11.08.2024 20:58
      +1

      Считайте, что я говорил за "intellect".


  1. vagon333
    11.08.2024 20:58
    +4

    Отвечай кратко и только то, в чём ты уверен.

    Промпт может быть улучшен и тогда не будет галюцинаций.
    При запросе через API температуру в 0.

    Пример доп. инструкций:


    1. flancer Автор
      11.08.2024 20:58
      +7

      Для интереса выкрутил температуру в ноль, взял промпт "if you don't know the answer or are unsure, please respond with "I don't know"" и запрос "In the 2002 film The Transporter, Frank Martin carried a Chinese girl in the trunk of his car. What color pantsuit was the girl wearing?":

      • 3.5-turbo: I don't know

      • ChatGPT 4-turbo: In the 2002 film "The Transporter," the Chinese girl, Lai, who is carried in the trunk of Frank Martin's car, is wearing a pink pantsuit.

      • ChatGPT 4o: I don't know.

      • ChatGPT 4: I'm sorry, but I don't have the specific information about the color of the pantsuit the girl was wearing in the 2002 film The Transporter.

      Стало гораздо лучше, не справился только 4-turbo. Подозреваю, что так это больше похоже на компьютерную программу (один и тот же ответ на один и тот же вопрос из-за обнуления температуры), но по сути LLM - это ведь она и есть, компьютерная программа. Было бы странно, если загнать Британскую Энциклопедию в компьютер, и он бы выдавал разные ответы на один и тот же вопрос: в каких годах правил российский император Александр II?

      Мне кажется, что для использования в качестве инструмента (помощь в программировании, например, или поиска данных/фактов) температуру точно нужно выкручивать в ноль. А для творческого поиска - слегка приподнимать.

      В общем, спасибо за коммент, коллега. Я улучшил своё понимание границ применимости LLM.


      1. LM7777
        11.08.2024 20:58

        Один и тот же ответ, на один и тот же вопрос при температуре 0, сделан специально и относительно недавно (думаю понятно зачем)


      1. LM7777
        11.08.2024 20:58
        +1

        Насчёт постоянно в 0 при программировании, уменьшается вероятность нахождения более удачного способа. И не факт, что предложенный способ будет нормальный. Это полезно на отработанных/известных данных (возможно ещё где-то, не знаю).
        На своём опыте склоняюсь к понижению температуры. Обычно 10–50. При 1 (если не ошибаюсь) уже выдаёт невалидный JASON. При 2 вообще каша/веселье, попробуйте ради интереса.


  1. Pol1mus
    11.08.2024 20:58
    +2

    Вызывающе неверная информация. Люди точно так же галлюцинируют. Есть даже такая расхожая фраза - врёт как свидетель. Я сама дочь офицера...

    Если дать человекам и чатугпт почитать сценарий фильма и потом задавать по нему вопросы то подавляющее большинство сольёт чатугпт всухую. Не смогут даже сказать во что была одета главная героиня в самой привлекательной сцене (крушение поезда/красное платье).


    1. BigBeerman
      11.08.2024 20:58
      +1

      То есть мы хотим воспроизвести человеческий мозг со всеми багами? И нафига такой ИИ нужен, по сабжу - ошибки ИИ штука опасная, народ привык доверять поисковикам и если в выдаче будут галлюцинации, получится очень нехорошо.


      1. TerraV
        11.08.2024 20:58

        Можете не пользоваться, пока не изобретут совершенный ИИ. А есть другие люди, которые относятся к ИИ не как к богу, а как к инструменту. Вон выше замечательный комментарий как существенно снизить количество галлюцинаций даже на 3.5. Можно жаловаться что топор тупой, а можно заточить.


        1. flancer Автор
          11.08.2024 20:58

          Топор можно заточить, но он так и останется тупым в интеллектуальном плане. IMHO, нужно понимать границы применимости и топора, и LLM. Но LLM гораздо более сложный инструмент, чем топор, поэтому гораздо сложнее очертить границы, где LLM становится бесползеным, а то и вредным.

          И мне нравится ваша ассоциация LLM с топором. Количество интеллекта в обоих инструментах примерно одинаковое.


          1. venanen
            11.08.2024 20:58
            +1

            Топор можно заточить, но он так и останется тупым в интеллектуальном плане. IMHO, нужно понимать границы применимости и топора, и LLM. Но LLM гораздо более сложный инструмент, чем топор, поэтому гораздо сложнее очертить границы, где LLM становится бесползеным, а то и вредным.

            Почему же? Крайне легко. Топор чтобы рубить. Все, что "не рубить" - для топора за зоной его ответственности, можно, но результат не гарантирован. Если очень захочется - можно и саморезы им крутить, с переменным успехом.
            Так и с ИИ - ИИ это вероятностный инструмент. Вероятностный - то есть все, что не требует четкого и сложновыводимого ответа. Считать цифры - нужен точный ответ, ИИ для этого плохо подходит. Исторические факты - точный ответ, ИИ может дать, а может и не дать ответ, нужно проверять.
            А вот дописать фразу, код, расставить комментарии - вполне.


            1. flancer Автор
              11.08.2024 20:58

              Согласен, с поправкой, что под ИИ вы подразумеваете LLM. Да, LLM - это вероятностный инструмент, и не нужно требовать от него точных ответов.


    1. Cordekk
      11.08.2024 20:58

      Люди просто не помнят. Это особенность нашей памяти.
      А когда пытаемся вспомнить, то вспоминаем другое.


  1. Pol1mus
    11.08.2024 20:58
    +3

    Ну и в каком месте это не человек? Сначала врал как свидетель, потом переобулся.


    1. cathome_official
      11.08.2024 20:58

      test


    1. flancer Автор
      11.08.2024 20:58

      Может быть он наконец-то просто понял, что вы от него добиваетесь и был рад вам угодить?

      Опричники Ивана Грозного могли у любого любые показания добыть. Те еще промпт-инженеры были!


  1. cathome_official
    11.08.2024 20:58

    test


  1. cathome_official
    11.08.2024 20:58

    test


  1. mikryukovsl
    11.08.2024 20:58

    Что несёт этот типа блогер? ИИ там чего то вытеснит, единственное что он сделает так это заблокирует всем доступ к достоверной информации, ну этого писателя уже всё вытеснилось.


  1. dimkoku
    11.08.2024 20:58

    Для человека признать свою неправоту тоже больно, поэтому он будет топить до последнего за сказанное. Поэтому данный критерий отличия человека от БЯМ, на мой взгляд сомнителен)


    1. flancer Автор
      11.08.2024 20:58

      Не неправоту, а некомпетентность :) Вы ж например, не сядите за штурвал самолёта, если не имеете соответствующих навыков?


      1. Wizard_of_light
        11.08.2024 20:58
        +3

        Сесть я не сяду, но посоветовать могу)) Мне тоже кажется, что по крайней мере часть глюков нейросети - от необходимости ответа любой ценой.


      1. dimkoku
        11.08.2024 20:58
        +4

        Если я захочу выжить, а с пилотом что-то не так, то придется сесть. Возможно у нейросетки есть внутренний абъюзер (жесткие правила поведения), который держит у горла нож и заставляет отвечать)


  1. domix32
    11.08.2024 20:58

    У людей тоже бывает эффект Манделы, когда помнят то чего не было, так чего бы и ИИ им не страдать? Попробуйте поспрашивать людей и с большой вероятностью соберёте некотрую радугу даже среди смотревших хотя бы просто потому что кто-то не отличает предметы одежды. Так что похоже ваш собственный комментарий про добычу информацию посредством паяльника единственно верный и правильный ответ кроется в границах вашей собственной предвзятости.


  1. imageman
    11.08.2024 20:58
    +1

    Для развлечения попросите нейронку объяснить анекдот. Когда была GPT 3, она косячила в 70% случаев. Сейчас 4o вполне угадывает (может даже в 95%). Т.е. в каких-то задачах вполне себе годится.


  1. Dupel_old
    11.08.2024 20:58

    Автор, почитай:

    https://habr.com/ru/articles/834956/

    В целом конечно же никакого ИИ нет. Обычный алгоритм + большие данные. Но такое трудно продать, поэтому пусть будет ИИ.


    1. flancer Автор
      11.08.2024 20:58

      Я смотрю, по ссылкам вы не ходите :(

      https://habr.com/ru/articles/834956/
      https://habr.com/ru/articles/834956/


      1. Dupel_old
        11.08.2024 20:58
        +1

        В статье немало ссылок было, переходил не на все. Поэтому дочитав до конца, увидел в рекомендациях ту самую статью, ссыль которую вам дал. Решил с вами поделиться)) Так что - пардон.


  1. iskateli
    11.08.2024 20:58

    Ну опять вместо чёткого определения используются аналогичные или более общие и размытые понятия. Смотрим определение осознания https://ru.wiktionary.org/wiki/%D0%BE%D1%81%D0%BE%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B5 Итого получается: интеллект - способность понимать. Супер, теперь стало прям понятно (нет). "Интелле́кт ... — качество психики... " Максимально бесполезные определения. Вот ещё в копилку таких же определений: интеллект - способность интеллектуально решать задачи.

    Искусственный интеллект — раздел информатики, изучающий возможность обеспечения разумных рассуждений и действий с помощью вычислительных систем и иных искусственных устройств.

    Такое же масло масляное как и со словом осознавать. Не надо так делать пожалуйста.


    1. flancer Автор
      11.08.2024 20:58

      Дайте, пожалуйста, чёткое определение. Я просто не смог его найти и взял первое попавшееся, а оно оказалось нечётким :(