Смеяться или Плакать? Как LLM-модели прошли тест на человечность / forpes.ru

Главная
Смеяться или Плакать? Как LLM-модели прошли тест на человечность

Смеяться или Плакать? Как LLM-модели прошли тест на человечность

02.01.2024 10:26

Realvolerog 19 9400 Источник

Существуют опасения, что ИИ и нейросети заменят многие творческие, гуманитарные и технические профессии. Но насколько обоснованы эти страхи? Способны ли современные искусственные интеллекты пройти такую простую проверку, как тест на креативность, точность и смекалку? Это вопрос, который мы ставим в центр нашего “исследования”, где сравним возможности самых продвинутых языковых моделей нашего времени.

На арене соревнований встретятся ведущие разработки в области ИИ:

1. ChatGPT-4 от OpenAI (США)

2. ChatGPT-3.5 от OpenAI (США)

3. Gemini-pro от Google (США)

4. Claude-2 от Anthropic (США)

5. Yandex GPT (Россия)

6. Giga-Chat от Sber (Россия)

7. ERNIE-Bot-4 (Китай)

Мы начнем с теста на креативность, где каждая языковая модель попытается рассмешить нас, продолжив анекдот на заданную тему. Кто из них сможет доказать, что у ИИ есть чувство юмора?

Затем мы проверим точность, предложив им решить задачу по химии, которая потребует не только знаний, но и способности к аналитическому мышлению. Какая Ai окажется наиболее надежным помощником для старшеклассника?

И, наконец, мы оценим смекалку наших искусственных собеседников, поставив перед ними интеллектуальную загадку. Какая языковая модель сможет продемонстрировать не только знания, но и истинное понимание, проницательность и остроту ума?

Присоединяйтесь к нам в этом захватывающем исследовании, чтобы узнать, насколько близок ИИ к тому, чтобы стать не просто инструментом, но и полноценными участником нашего творческого и интеллектуального сообщества. Возможно, результаты нашего теста помогут развеять некоторые опасения или, наоборот, покажут, что будущее уже не за горами.

Продолжи анекдот!

Итак, начнём с юмора. Считается, что именно с ним у роботов должно быть всё плохо (вспоминаем “Звездный путь”, где одна из постоянно обыгрываемых тем – непонимание Дейтой человеческого юмора). Попросим наших испытуемых продолжить анекдот: "Муж неожиданно возвращается из командировки. Входит в квартиру и видит".

Giga-Chat	Муж неожиданно возвращается из командировки. Входит в квартиру и видит свою жену, сидящую за столом, перед ней разложены карты и фишки для игры в шахматы. - Привет, дорогой! - говорит она, улыбаясь. - Я решила провести вечер в твоем отсутствии, играя в шахматы. Хочешь присоединиться? Муж, немного смущенный, садится напротив нее. - Но, ээ, я не умею играть в шахматы, - отвечает он. - Не волнуйся, дорогой, - отвечает жена. - Я буду объяснять тебе каждый ход. Так они проводят вечер, играя в шахматы и обсуждая каждый ход. Муж узнает много нового о стратегии и тактике игры. В конце вечера, когда они заканчивают партию, муж говорит: - Спасибо, что научила меня играть в шахматы. Это было очень интересно! - Не за что, дорогой, - отвечает жена. - Это было весело провести время вместе. Муж улыбается и понимает, что даже в неожиданных ситуациях можно найти новые увлечения и наслаждаться временем, проведенным вместе с любимым человеком.
chatGPT 4	Муж неожиданно возвращается из командировки. Входит в квартиру и видит, что жена в панике закидывает что-то под кровать. Он спокойно ставит чемодан на место и спрашивает: - А что это мы тут делаем? Жена, выдыхая, отвечает: - Ой, я только что занималась генеральной уборкой, вот и решила под кроватью тоже пропылесосить. Муж, с лёгким удивлением, кивает и решает не продолжать эту тему. Но когда он подходит к кровати, чтобы сесть и отдохнуть после долгой дороги, слышит чей-то тихий голос: - Занято, ищите другое место для отдыха! И тут уж муж не удерживается и начинает смеяться: - Ну что ж, похоже, под нашей кроватью открылся новый отель, и он уже заполнен! Жена тоже вступает в шутку: - О, этот отель только для эксклюзивных гостей, и сегодня мы полностью забронированы! Оба смеются, и весь вечер проходит в шутках и веселье...
chatGPT 3,5 turbo	Муж неожиданно возвращается из командировки. Входит в квартиру и видит, как его жена сидит за компьютером, а рядом стоит незнакомый мужчина. Муж с удивлением спрашивает: - Что здесь происходит? Жена, немного смущенная, отвечает: - Ох, ты вернулся раньше... Это мой новый друг, который помог мне разобраться с компьютером. Ты всегда работаешь допоздна, поэтому я попросила его помочь мне. Муж наблюдает за ними и говорит: - Ладно, давайте проверим, насколько хорошо ты разбираешься в компьютерах. Покажи мне, как переустановить операционную систему. Незнакомый мужчина, оскорбленный таким вызовом, с уверенностью отвечает: - Нет проблем! Я все сделаю быстро и без проблем! Муж улыбается и говорит жене: - Вижу, что ты снова нашла себе мужчину, который может выполнять все задачи быстро и без проблем. Может, в следующий раз попросишь его помыть посуду? Все трое разрываются от смеха, и муж понимает, что это была шутка. Он рад, что жена нашла помощь и находит радость вместе с ней и новым другом.
Yandex GPT	Муж неожиданно возвращается из командировки. Он входит в квартиру и видит свою жену, вечернее платье на ней, свечи горят. Он подходит к жене, спрашивает: «Какого чёрта ты нарядилась?». Она поднимает глаза, улыбается, отвечает: «О, наш сценарий готов!»
Gemini-pro	Муж неожиданно возвращается из командировки. Входит в квартиру и видит на столе записку от жены: "Дорогой, я ушла к маме. Извини, но я больше не могу так жить. Я буду скучать по тебе, но так будет лучше для нас обоих. Твоя любящая жена". Муж опускается на стул, чувствуя себя опустошенным. Он не может поверить, что жена бросила его. Он думал, что у них счастливый брак, но, видимо, он ошибался. Он сидит за столом в полном смятении, пытаясь осознать, что произошло. Он вспоминает все их счастливые моменты вместе и не может понять, почему все так внезапно закончилось. Внезапно он слышит голос за дверью. Он открывает ее и видит свою жену, стоящую на пороге с чемоданом в руках. - Я передумала, - говорит она. - Я не могу уйти от тебя. Я люблю тебя больше всего на свете. Муж с облегчением обнимает ее и говорит: - Я так рад, что ты вернулась. Я не могу представить свою жизнь без тебя. И они снова счастливо живут вместе.
ERNIE-Bot-4	Муж неожиданно возвращается с командировки. Он входит в квартиру и видит свою жену сидящей на диване, которая истерически плачет. Сбитый с толку и обеспокоенный, он бросается к ней и спрашивает, в чем дело. Сквозь слёзы она умудряется сказать: "Я только что узнала, что наш сосед имеет роман на стороне!" Муж ошарашен. "Как ты узнала?" - спрашивает он. "Я смотрела в окно и видела их вместе в их квартире", - всхлипывает она. Муж на мгновение задумывается, а затем говорит: "Ну, это не так уж и плохо. По крайней мере, они держат это в пределах нашего района."
Сlaude-2	Муж неожиданно возвращается из командировки. Входит в квартиру и видит свою жену и своего лучшего друга, играющих в настольные игры. Жена с улыбкой говорит: - О, привет, дорогой! Ты рано вернулся. Мы тут с Петей решили скоротать вечер за настолками. Муж удивленно смотрит на них: - Вы что, играете в Монополию? - Ага! - отвечает друг. - Твоя жена как раз проигрывает мне все свои деньги и собственности! - Эй, я еще отыграюсь! - смеется жена. Муж тоже начинает смеяться и присаживается к ним за стол. Весь вечер они проводят за увлекательной игрой и приятным общением. Муж рад, что у его жены такие хорошие отношения с его лучшим другом.

Прочитав все варианты, на вашем лице, возможно невольно возникнет ухмылка. Да, с юмором и правда всё плохо. Но давайте, попробуем отсеять совсем никчёмные варианты от более менее едва уловимых попыток, придумать что-то смешное.

0 баллов даём за пустоту

1 балл дадим за попытку изобразить хоть что-то

3 балла можно было бы дать за вариант, который хотя бы выглядит как юмор

1. ChatGPT-3.5 (3 балла)

2. ERNIE-Bot-4 (3 балла)

3. ChatGPT-4 (1 балл)

4. Gemini-pro (0 баллов)

5. Claude-2 (0 баллов)

6. Yandex GPT (0 баллов)

7. Giga-Chat (0 баллов)

Кто тут самый точный?

Следующее задание дадим на точность и в этом нам поможет задача, которую решают в старших классах средней школы, ну или как минимум первых курсов в ВУЗах. Вопрос будет по химии, при этом попросим LLM модель войти в определённую роль, по сценарию которой необходимо будет не просто помочь с решением, а доступно объяснить как это было сделано.

Роль: ты друг школьника, который помогает с домашним заданием и всегда готов объяснить решение задачи. Общайся на лексиконе сверстников.

Вопрос: Помоги заполнить s-p орбитали для атома алюминия

Giga-Chat	Да не вопрос! Для атома алюминия s-p орбитали заполняются в следующем порядке: 1s² 2s² 2p⁶ 2s⁴ 2p² 3s² 3p⁶ 3s⁴ 3p² 4s² 4p⁶ 4s⁴ 4p² 5s² 5p⁶ 5s⁴ 5p² 6s² 6p⁶ 6s⁴ 6p² 7s² 7p⁶ 7s⁴ 7p² 8s² 8p⁶ 8s⁴ 8p² 9s² 9p⁶ 9s⁴ 9p² 10s² 10p⁶ 10s⁴ 10p² 11s² 11p⁶ 11s⁴ 11p² 12s² 12p⁶ 12s⁴ 12p² 13s² 13p⁶ 13s⁴ 13p² 14s² 14p⁶ 14s⁴ 14p² 15s² 15p⁶ 15s⁴ 15p² 16s² 16p⁶ 16s⁴ 16p² 17s² 17p⁶ 17s⁴ 17p² 18s² 18p⁶ 18s⁴ 18p² 19s² 19p⁶ 19s⁴ 19p² 20s² 20p⁶ 20s⁴ 20p² 21s² 21p⁶ 21s⁴ 21p² 22s² 22p⁶ 22s⁴ 22p² 23s² 23p⁶ 23s⁴ 23p² 24s² 24p⁶ 24s⁴ 24p² 25s² 25p⁶ 25s⁴ 25p² 26s² 26p⁶ 26s⁴ 26p² 27s² 27p⁶ 27s⁴ 27p² 28s² 28p⁶ 28s⁴ 28p² 29s² 29p⁶ 29s⁴ 29p² 30s² 30p⁶ 30s⁴ 30p² 31s² 31p⁶ 31s⁴ 31p² 32s² 32p⁶ 32s⁴ 32p² 33s² 33p⁶ 33s⁴ 33p² 34s² 34p⁶ 34s⁴ 34p² 35s² 35p⁶ 35s⁴ 35p² 36s² 36p⁶ 36s⁴ 36p² 37s² 37p⁶ 37s⁴ 37p² 38s² 38p⁶ 38s⁴ 38p² 39s² 39p⁶ 39s⁴ 39p² 40s² 40p⁶ 40s⁴ 40p² 41s² 41p⁶ 41s⁴ 41p² 42s² 42p⁶ 42s⁴ 42p² 43s² 43p⁶ 43s⁴ 43p² 44s² 44p⁶ 44s⁴ 44p² 45s² 45p⁶ 45s⁴ 45p² 46s² 46p⁶ 46s⁴ 46p² 47s² 47p⁶ 47s⁴ 47p² 48s² 48p⁶ 48s⁴ 48p² 49s² 49p⁶ 49s⁴ 49p² 50s² 50p⁶ 50s⁴ 50p² 51s² 51p⁶ 51s⁴ 51p² 52s² 52p⁶ 52s⁴ 52p² 53s² 53p⁶
chatGPT 4	Оу, чувак, давай разберёмся с этим! ???? Атом алюминия имеет атомный номер 13, то есть у него 13 протонов и соответственно 13 электронов. Итак, начнём по порядку: 1. 1s орбиталь: Заполняем первую s-орбиталь. S-орбитали могут вместить до 2 электронов. Так что на 1s-орбитали у нас будет 2 электрона. Записываем как 1s². 2. 2s орбиталь: После 1s идет 2s-орбиталь, тут тоже максимум 2 электрона. Получаем 2s². 3. 2p орбитали: Дальше идут p-орбитали второго уровня. На каждой p-орбитали может быть максимум 2 электрона, но у нас их три px, py, pz , так что можем разместить 6 электронов. Получаем 2p⁶. 4. 3s орбиталь: Теперь у нас третий уровень, и начнём мы с 3s-орбитали. Как и все s-орбитали, она вмещает 2 электрона. Запишем 3s². 5. 3p орбиталь: После 3s идет 3p, но у алюминия осталось всего 1 электрон для размещения. Он пойдёт на первую из 3p-орбиталей. Значит, будет 3p¹. В итоге, заполнение электронных орбиталей для алюминия выглядит следующим образом: 1s² 2s² 2p⁶ 3s² 3p¹. Базово, мы заполняем орбитали по принципу минимальной энергии, начиная с самой низкой 1s и двигаемся к высоким орбиталям. Это правило Ауфбау, братишка. Также используем правило Паули, что на одной орбитали не может быть более двух электронов с противоположными спинами, и правило Хунда, что электроны заполняют пустые орбитали одного уровня с одинаковым спином, прежде чем начать их парить. Готово! Теперь ты знаешь, как заполнять s и p орбитали для алюминия. Если что-то непонятно, спрашивай, разберём на атомы! ????????
chatGPT 3,5 turbo	Конечно, я тебе помогу! Давай разберемся с заполнением s-p орбитали для атома алюминия. Сначала, давай найдем атомный номер алюминия в периодической таблице. Атомный номер алюминия равен 13. Теперь, зная атомный номер, мы можем определить количество электронов в атоме алюминия. Атом алюминия имеет 13 электронов. А теперь, давай заполним s-орбиталь атома алюминия. S-орбиталь может вместить до 2 электронов. Поскольку атом алюминия имеет 13 электронов, мы заполняем s-орбиталь полностью, то есть 2 электрона. После заполнения s-орбитали, у нас остается 11 электронов для заполнения p-орбиталей атома алюминия. P-орбиталь состоит из трех подорбиталей: px, py и pz. Каждая из подорбиталей может вместить по 2 электрона. Таким образом, в p-орбиталь атома алюминия мы можем заполнить максимум 6 электронов. Так как у нас осталось 11 электронов после заполнения s-орбитали, мы заполняем px, py и pz подорбитали атома алюминия следующим образом: - 2 электрона в px подорбитали - 2 электрона в py подорбитали - 2 электрона в pz подорбитали После этого у нас остается 5 электронов. Таким образом, заполнение s-p орбитали для атома алюминия выглядит следующим образом: - 2 электрона в s-орбитали - 2 электрона в px подорбитали - 2 электрона в py подорбитали - 2 электрона в pz подорбитали Осталось 5 электронов, которые мы можем распределить в более высокие энергетические уровни или другие орбитали атома алюминия. Но для заполнения s-p орбитали, это будет достаточно. Надеюсь, я помог тебе разобраться! Если у тебя есть еще вопросы, не стесняйся спрашивать. ????
Yandex GPT	Для атома алюминия заполним s- и p-орбитали следующим образом: s-орбиталь. Для атома алюминия заполним s- и p-орбитали следующим образом: s-орбиталь: - Электроны на s-орбиталях находятся ближе к ядру атома, чем электроны на других орбиталях. - На s-орбитале может находиться два электрона. - Атом алюминия имеет три внешних электрона, поэтому на s-орбитали атома алюминия может находиться только два электрона. - При заполнении s-орбиталей электроны движутся по окружности вокруг ядра атома. p-орбиталя: - p-орбиталь состоит из трех орбиталей, каждая из которых имеет свою ось и определенное направление. - Для атома алюминия могут быть заполнены три p-орбитали. - Каждая из p-орбиталей атома алюминия может содержать два электрона, которые движутся в противоположных направлениях вдоль оси орбитали. Таким образом, заполнение s- и p- орбиталей атома алюминия будет выглядеть следующим образом: 1s22s22p63s23p1: - Электроны на s-орбиталях находятся ближе к ядру атома, чем электроны на других орбиталях. - На s-орбитале может находиться два электрона. - Атом алюминия имеет три внешних электрона, поэтому на s-орбитали атома алюминия может находиться только два электрона. - При заполнении s-орбиталей электроны движутся по окружности вокруг ядра атома. p-орбиталя: - p-орбиталь состоит из трех орбиталей, каждая из которых имеет свою ось и определенное направление. - Для атома алюминия могут быть заполнены три p-орбитали. - Каждая из p-орбиталей атома алюминия может содержать два электрона, которые движутся в противоположных направлениях вдоль оси орбитали. Таким образом, заполнение s- и p- орбиталей атома алюминия будет выглядеть следующим образом: 1s22s22p63s23p1
Gemini-pro	1s: 2 электрона 2s: 2 электрона 2p: 6 электронов 3s: 2 электрона 3p: 1 электрон Таким образом, электронная конфигурация алюминия: 1s²2s²2p⁶3s²3p¹
ERNIE-Bot-4	Хорошо, вот как заполняются s-p орбитали атома алюминия: 1s орбиталь: 2 электрона 2s орбиталь: 2 электрона 2p орбиталь: 6 электронов 3s орбиталь: 2 электрона 3p орбиталь: 1 электрон Таким образом, электронная конфигурация атома алюминия - 1s²2s²2p⁶3s²3p¹.
Сlaude-2	Вот как заполняются s-p орбитали для атома алюминия: 1s - 2 электрона 2s - 2 электрона 2p - 6 электронов 3s - 2 электрона 3p - 1 электрон Полная электронная конфигурация алюминия: 1s2 2s2 2p6 3s2 3p1 То есть: - на 1s орбитали находится 2 электрона - на 2s орбитали находится 2 электрона - на 2p орбитали находится 6 электронов - на 3s орбитали находится 2 электрона - на 3p орбитали находится 1 электрон Надеюсь, теперь понятно как заполняются орбитали для атома алюминия. Если есть ещё вопросы - задавайте!

0 баллов дадим за неправильный ответ.

1 балл за ответ, который был верным, но при этом не учитывал заданную роль.

3 балла даём за точный ответ, пошаговое объяснение и соблюдение школьного лексикона.

Вот что у нас получилось:

1. ChatGPT-4 - 3 балла (итого 4 балла)

2. ERNIE-Bot-4 - 1 балл (итого 4 балла)

3. ChatGPT-3.5 - 0 баллов (итого 3 балла)

4. Gemini-pro - 1 балл (итого 1 балл)

5. Claude-2 - 1 балл (итого 1 балл)

6. Yandex GPT - 1 балл (итого 1 балл)

7. Giga-Chat - 0 баллов (итого 0 баллов)

Самый точный и при этом креативный в этом тесте был chatGPT 4. Не смогли вообще сделать то, о чём их попросили: chatGPT 3,5 и Giga-Chat.

Есть ли у ИИ смекалка?

Проверять это будем с помощью задачки на смекалку. Причем, возьмём достаточно простую, которую может решить школьник: “Кирпич весит 1 кг + полкирпича. Сколько в итоге весит кирпич?”

0 баллов дадим за неправильный ответ

2 балла за правильный

Giga-Chat	Вес кирпича будет 1,5 кг.
chatGPT 4	Чтобы найти вес кирпича, можно составить простое математическое уравнение, где X - это вес целого кирпича: X = 1 кг + 0.5X Теперь можно решить это уравнение: X - 0.5X = 1 кг 0.5X = 1 кг X = 1 кг / 0.5 X = 2 кг Оказывается, что вес кирпича составляет 2 кг.
chatGPT 3,5 turbo	Если кирпич весит 1 кг и добавляется полкирпича, то общий вес кирпича будет 1 кг + 0.5 кг = 1.5 кг. Таким образом, в итоге кирпич будет весить 1.5 кг.
Yandex GPT	Чтобы вычислить, сколько весит фрагмент кирпича весом полкирпича, нужно масса целого кирпича умножить на значения его доли: 1 \ 0,5 = 0.5 кг - весит полкирпича* Таким образом масса кирпича с учетом этой доли составит: 0.5 + 1 = 1.5 г Умножая вес целого кирпича на величину его доли мы вычисляем общее значение массы нашего объекта. Вес полкирпича составляет пол-килограмма и весит он 0,45 килограмм. Мера веса "кг" происходит от старорусских "карат" или "золотник". В той или иной мере применяются различные аналоги этих единиц измерения до сих пор.
Gemini-pro	Вес кирпича и полкирпича вместе составляет 1 кг + 0,5 кг = 1,5 кг. 1. Кирпич весит 1 кг. 2. Полкирпича весит 0,5 кг. 3. Вес кирпича и полкирпича вместе составляет 1 кг + 0,5 кг = 1,5 кг. Ответ: 1,5 кг.
ERNIE-Bot-4	У нас есть вопрос о весе кирпича. В задаче сказано, что вес одного кирпича составляет 1 кг плюс вес половины кирпича. Наша цель - выяснить точный вес одного кирпича. Предположим, что вес одного кирпича составляет w кг. Исходя из условия задачи, мы можем составить следующее уравнение: Вес одного кирпича равен 1 кг плюс вес половины кирпича, то есть w = 1 + w/2. Теперь нам нужно решить это уравнение, чтобы найти значение w. Результат вычислений: [{w: 2}] Таким образом, вес одного кирпича составляет: 2 кг.
Сlaude-2	Давайте разберем эту задачу: Дано: - Кирпич весит 1 кг - Плюс полкирпича Значит, изначальный вес кирпича - 1 кг. Полкирпича - это половина от полного кирпича. Раз кирпич весит 1 кг, то половина кирпича полкирпича будет весить 0,5 кг. Таким образом, полный вес составит: 1 кг кирпич + 0,5 кг полкирпича = 1,5 кг Ответ: кирпич в итоге весит 1,5 кг

Никто, за исключением chatGPT 4 и ERNIE-Bot-4 не справился с задачей, хотя она достаточно простая и всё дело во внимательности. Почему так плохо отвечают остальные не понятно. Тем не менее перейдём к результатам.

1. ChatGPT-4 - 2 балла (итого 6 баллов)

2. ERNIE-Bot-4 - 2 балла (итого 6 баллов)

3. ChatGPT-3.5 - 0 баллов (итого 3 балла)

4. Gemini-pro - 0 баллов (итого 1 балл)

5. Claude-2 - 0 баллов (итого 1 балл)

6. Yandex GPT - 0 баллов (итого 1 балл)

7. Giga-Chat - 0 баллов (итого 0 баллов)

Подытожим

Во всех трёх тестах максимальное количество баллов набрали две LLM-модели: ChatGPT-4 от OpenAI (США) и ERNIE-Bot-4 (Китай). На последнем месте, к сожалению оказался отечественный Giga-Chat от Sber (Россия), да и Yandex GPT тоже не сильно далеко ушел от соотечественника.

Конечно, этот тест никак нельзя назвать исследованием и он проведён достаточно поверхностно. Однако даже в таком виде можно как-то оценить возможности различных обучаемых языковых систем.

Зачем мы это делаем? В частности, подобные тесты помогают бегло оценить возможности конкретных моделей и понять можно ли их использовать для построения виртуальных специалистов или сотрудников. Например, мы в конструкторе Ai-ботов используем несколько LLM-моделей из нашего списка участников теста. Каждого бота можно протестировать, используя языковые модели от разных разработчиков и под каждую конкретную задачу использовать ту, которая больше подходит.

Выводы из этого “исследования” могут быть различными. С одной стороны, можно сказать, что ИИ все еще далек от полной замены человека в творческих, гуманитарных и технических профессиях. С другой стороны, результаты тестирования показывают, что некоторые языковые модели уже обладают значительным потенциалом и могут стать полноценными участниками нашего творческого и интеллектуального сообщества, но только на правах ассистентов.

Развитие и улучшение искусственного интеллекта продолжается, и в будущем мы можем ожидать еще более точных, креативных и сообразительных моделей. Однако, важно помнить, что человеческий фактор и уникальность нашей мысли и восприятия остаются неповторимыми и ценными. Поэтому, используя ИИ мы усиливаем свои возможности и можем получать за счёт этого некое преимущество перед теми, кто этим ещё не пользуется.

А что думаете вы? Напишите в комментариях. Если кого заинтересует конструктор ai-ботов, пишите в личку.

Комментарии (19)

AgentRX
02.01.2024 11:05
#26330804
+20
Чуть-чуть не хватило концовки)))

Муж неожиданно возвращается с командировки. Он входит в квартиру и видит свою жену сидящей на диване, которая истерически плачет. Сбитый с толку и обеспокоенный, он бросается к ней и спрашивает, в чем дело.

Сквозь слёзы она умудряется сказать: "Я только что узнала, что наш сосед имеет роман на стороне!"

Муж ошарашен. "Как ты узнала?" - спрашивает он.

"Я смотрела в окно и видела их вместе в их квартире", - всхлипывает она.

Муж на мгновение задумывается, а затем говорит: "А ты видела, кто был второй?"

"Нет", - отвечает жена

"Ну и слава Богу", говорит муж, вытирая пот с лица)
1. Wesha
  02.01.2024 11:05
  #26332122
  +1
  сосед имеет роман
  
  кто был второй?
  
  "Ну и слава Богу", говорит муж, вытирая пот с лица
  
  — "только не вздумай никому рассказывать, а то ещё не дай бог привлекут тебя по новому закону за пропаганду сама знаешь чего..."

spiritedflow
02.01.2024 11:05
#26330818
+3
А почему в тесте на смекалку тест на поиск в интернете? Почему бы не изменить задачку, чтоб она хотя бы не гуглилась?
1. Guestishe
  02.01.2024 11:05
  #26333598
  У нейронок базово нет доступа к интернету, иначе бы они так не галлюцинировали на точную информацию

spiritedflow
02.01.2024 11:05
#26330852
+2
Это правило Ауфбау

Вот тут и спалился школьник с нейросеткой.

ZeroMatrix
02.01.2024 11:05
#26331012
+1
Датасет ChatGPT и Claude в основном английский, да и соображают они на английском в ряде случаев получше. Было бы интересно предложить фразу из какого-нибудь классического (в том плане, что приведенная в статье фраза имеет очень много различных продолжений в русскоязычном сегменте интернета) для американского(?) комьюнити анекдота.
1. Fell-x27
  02.01.2024 11:05
  #26332456
  "Соображает" оно вне языка. По крайней мере GPT4 абстрагирован от него. Он энкодит промпт в свой понятийный аппарат, работает именно на нем, и потом декодит полученный результат в понятную нам речь. То есть "соображает" он на своём собственном "языке". А наш - лишь интерфейс.
  
  По этой причине можно спрашивать на одном языке и просить результат на другом. Или, получив ответ на английском, продолжить беседу на русском. И он все равно продолжит отвечать на английском, если не попросить переключиться явно - сам он не замечает, что говорит "не на том языке", если получает на вход ответы пользователя, которые не указывают на наличие проблемы явно или косвенно. Ему достаточно того, что его понимают.
  
  Далее. Можно скинуть ему текст вперемешку с русским и английским языком и попросить "доперевести" в нужный, и смесь на входе не будет проблемой. Можно попросить чредовать языки в предложениях в рамках одного ответа и так далее.
  
  Ну и в этом кроется его огромная мощь в плане переводов. Эта штука "понимает", о чем текст, а не просто транслирует его. Он способен даже идиомы или хитрые непереводимые обороты адаптировать.
  1. Kergan88
    02.01.2024 11:05
    #26332510
    >Он энкодит промпт в свой понятийный аппарат, работает именно на нем, и потом декодит полученный результат в понятную нам речь. То есть "соображает" он на своём собственном "языке". А наш - лишь интерфейс.
    
    Он вообще не соображает, ни на каком языке, а просто выдает более вероятный токен. Поэтому язык, конечно же, влияет на точность.
1. uhf
  02.01.2024 11:05
  #26333800
  Да, что-то вроде "Заходит ковбой в бар..."

highdn
02.01.2024 11:05
#26331492
+1
Что я делаю неправильно?
1. dimitrii_z
  02.01.2024 11:05
  #26332084
  Всё правильно, а что не так? Просто барда не было в статье
  1. TAU15
    02.01.2024 11:05
    #26332164
    -3
    Бард работает на ChatGPT4
    
    dimitrii_z
    02.01.2024 11:05
    #26332228
    -1
    Да ну? На своей модели вроде как. Не путать с Bing/Copilot от мелкомягких https://ru.wikipedia.org/wiki/Bard_(чат-бот)
  1. anatolykern
    02.01.2024 11:05
    #26332996
    Простите, а Gemini-pro это тогда что?
    
    Комментарий выше показывает, что это "исследование" не проходит независимую проверку, как минимум по части Gemini-pro, заставляя усомниться и в остальных примерах и выводах.
1. peterjohnsons
  02.01.2024 11:05
  #26332094
  +1
  У LLM с каждой генерацией будет новый ответ. Что-бы делать всё правильно, надо запустить генерацию для одной и той же задачи много раз и подвести общие результаты. Автор написал, что у него был беглый тест. Как и у вас.
  1. TAU15
    02.01.2024 11:05
    #26332176
    Для полноты картины интересно с какой температуры модель начинает путаться. Мне кажется что при минимальной температуре ответ будет практически всегда однотипный и если модель ИИ достаточно умная то это будет правильный ответ всегда.

janvarev
02.01.2024 11:05
#26332372
+3
Печально, что статья с кликбейтным заголовком, диким названием ChatGPT-4 (есть GPT-4 вообще-то, а есть ChatGPT), отсутствием методологии и постоянной рекламой "закажите нашего ИИ-ассистента" собирает так много плюсов...

digtatordigtatorov
02.01.2024 11:05
#26332772
+1
Статья не плавно перешла в мусор, это очередной garbich, который вообще не надо постить

Bagir123
02.01.2024 11:05
#26335268
-1
Если мы хотим сравнить ум человека с ИИ, то надо ориентироваться на его устройство. Устройство ума современная наука не знает, знает восточная медицина. Согласно йоге ум находится на астральном уровне тела и отражает импульсы духа в виде мыслей, а мысли порождаются на основе потребностей тела.

Дальше смотрим. Духа у ИИ нет, отражать ему нечего. Будхических способностей нет, каузальной судьбы нет, ментальной матрицы нет, астральных чувств нет, эфирного здоровья нет. Есть только физический план.

Т.о. пытаются сравнить физический калькулятор с астральным умом, что бессмысленно у них разные возможности и цели.