Я был вдохновлен ранее вышедшей статьей автора MikeMSN - "Задача Эйнштейна. ChatGPT, YaGPT2, Gigachat, Mistral Large" и решил провести большой тест наиболее популярных LLM нейросетей. Использовал для этого сайт Chatbot Arena, а также свой компьютер, на котором можно запустить локальные LLM нейронные сети.

Характеристики моего домашнего компьютера, на котором я задавал вопросы локальным нейросетям - 8 ядерный 16 поточный процессор AMD Ryzen 7 1700X и 96 Гб оперативной памяти 4 планками (2 по 32 и 2 по 16).

Однако для чистоты эксперимента я изменил задачу Эйнштейна, чтобы нейросети не смогли увидеть похожее решение в интернете:

Hidden text

Реши логическую задачу:

На улице стоят пять складов.
Каменщик работает в зеленом складе.
У портного есть леопард.
На желтом складе едят котлету.
Электрик ест хлеб.
Желтый склад стоит сразу справа от синего склада.
Тот, кто пьет коньяк разводит пуму.
В белом складе пьют вино.
В центральном складе едят пельмени.
Плотник работает на первом складе.
Сосед того, кто пьет водку, держит медведя.
На складе по соседству с тем, в котором держат тигра, пьют вино.
Тот, кто пьет виски, ест макароны.
Программист пьет ром.
Плотник работает рядом с красным складом.

Кто ест пиццу? Кто держит крокодила?

Ответ на задачу:

Hidden text

склад

1

2

3

4

5

цвет склада

белый

красный

зеленый

синий

желтый

специальность

плотник

электрик

каменщик

портной

программист

еда

пицца

хлеб

пельмени

макароны

котлета

алкоголь

вино

водка

коньяк

виски

ром

животное

медведь

тигр

пума

леопард

крокодил

Плотник ест пиццу, а программист держит крокодила.

Как установить и запустить локальную нейросеть на своем компьютере - я писал в моей предыдущей статье "Локальные GPT нейронный сети — устанавливаем на домашнем ПК, запускаем и проверяем на адекватность аналоги ChatGPT".

Miqu-1 с 70 млрд параметров

Считается, что это слитая альфа версия Mistral Medium от французской компании Mistral AI. Преимущество этой нейросети в том, что её можно запустить локально на компьютере. Для этого понадобится ПК минимум с 64 Гб оперативной памяти. Использовал я версию "5_Q_M"

Ответ этой нейросети:

Hidden text

В этой логической задаче нужно найти человека, который ест пиццу и тот, кто держит крокодила. Для этого начнем сопоставлять факты, а затем исходить из них. Вот один из возможных вариантов решения:

  1. У каждого склада есть свой цвет: зелёный, жёлтый, синий, белый, красный.

  2. Каменщик работает в зелёном складе.

  3. Портной имеет леопарда.

  4. На желтом складе едят котлету.

  5. Электрик ест хлеб.

  6. Желтый склад находится сразу справа от синего склада.

  7. Тот, кто пьёт коньяк разводит пуму.

  8. В белом складе пьют вино.

  9. В центральном складе (между тремя другими) едят пельмени.

  10. Плотник работает на первом складе.

  11. Сосед того, кто пьёт водку, держит медведя.

  12. На складе рядом с тем, где держат тигра, пьют вино.

  13. Тот, кто пьёт виски, ест макароны.

  14. Программист пьёт ром.

  15. Плотник работает рядом с красным складом.

Из этих фактов можно сделать следующие выводы:

  • Если плотник работает на первом складе и рядом с красным складом, то первый склад должен быть красного цвета (иначе он не будет соседствовать с красным).

  • Центральный склад не может быть жёлтого цвета, так как на нём есть только пельмени, а не котлета.

  • Центральный склад также не может быть красного цвета, так как первый склад уже красный. Он также не может быть зелёного цвета, потому что зелёный склад принадлежит каменщику, который не ест пельмени. Белый и синий склады могут содержать вино, поэтому центральный склад должен быть белого цвета.

  • Жёлтый склад находится сразу справа от синего склада, следовательно, второй склад должен быть жёлтого цвета, а четвёртый - синего.

  • Теперь остаётся установить, кто из рабочих ест пиццу и держит крокодила. Из известных фактов мы можем узнать, что:

    • Каменщик ест пельмени (он работает в зелёном складе, который является центральным);

    • Портной ест леопарда;

    • Электрик ест хлеб;

    • Плотник ест котлету (он работает на первом, красном складе, рядом с жёлтым).

Осталось определить, кто пьёт водку, коньяк, виски и ром, и что это за люди. Мы знаем следующее:

  • Тот, кто пьёт коньяк разводит пуму, но это не помогает определить профессию человека.

  • Тот, кто пьёт виски, ест макароны, но так же не знаем его профессии.

  • Программист пьёт ром, но не знаем, что он ест.

  • Сосед того, кто пьёт водку, держит медведя. С учётом известных фактов, соседом того, кто пьёт водку, может быть только каменщик, так как он единственный, кто имеет соседа по обе стороны. Если бы плотник или электрик были соседями человека, пившего водку, то их склады были бы расположены последовательно, но мы уже знаем их расположение. Таким образом, человек, пиющий водку, должен работать в синем или зелёном складе.

Поскольку синий склад находится сразу слева от жёлтого, а на жёлтом есть котлета, то человек, пивший водку, должен работать в зелёном складе. Однако зелёный склад принадлежит каменщику, который ест пельмени, а не пиццу, и не держит крокодила. Таким образом, никакой из рабочих не ест пиццу и не держит крокодила.

Ответ: Нет такого рабочего, который бы ел пиццу или держал крокодила.

Ответить правильно она так и не смогла.

Mistral Medium

Одна из разновидностей новой нейронной сети от компании Mistral AI (наряду с Mistral Small, Large). Ответ на задачу (логически даже не стал думать):

Hidden text

Из данных фактов не следует, кто ест пиццу, и кто держит крокодила. Эти факты не были упомянуты в предложениях.

Если вам нужна дополнительная помощь или вам нужно решить другую задачу, пожалуйста, скажите мне.

Mistral Large

Самая крупная нейронная сеть от компании Mistral AI. Её ответ:

Hidden text

Ок, давайте разберемся в этой задаче.

  1. Известно, что каменщик работает в зеленом складе.

  2. У портного есть леопард.

  3. На желтом складе едят котлету.

  4. Электрик ест хлеб.

  5. Желтый склад стоит сразу справа от синего склада.

  6. Тот, кто пьет коньяк разводит пуму.

  7. В белом складе пьют вино.

  8. В центральном складе едят пельмени.

  9. Плотник работает на первом складе.

  10. Сосед того, кто пьет водку, держит медведя.

  11. На складе по соседству с тем, в котором держат тигра, пьют вино.

  12. Тот, кто пьет виски, ест макароны.

  13. Программист пьет ром.

  14. Плотник работает рядом с красным складом.

По пункту 9, плотник работает на первом складе. По пункту 14, плотник работает рядом с красным складом. Значит, первый склад красный.

По пункту 5, желтый склад стоит справа от синего, значит второй склад синий, третий склад желтый.

По пункту 11, на складе по соседству с тем, в котором держат тигра, пьют вино. Вино пьют в белом складе (пункт 7), значит тигра держат в четвертом складе, а белый склад пятый.

По пункту 6, тот, кто пьет коньяк, разводит пуму. Коньяк пьет или второй, или четвертый склад. Но на четвертом складе держат тигра, значит на втором складе пьют коньяк и держат пуму.

По пункту 10, сосед того, кто пьет водку, держит медведя. Водку пьют или на первом, или на третьем складе. Но на первом складе плотник, а на третьем складе едят котлету (пункт 3), значит водку пьют на первом складе, а медведя держат на втором.

По пункту 12, тот, кто пьет виски, ест макароны. Виски пьют или на первом, или на третьем складе. Но на первом складе пьют водку, а на третьем складе едят котлету, значит виски пьют на третьем складе, а макароны едят также на третьем.

По пункту 13, программист пьет ром. Ром пьют или на четвертом, или на пятом складе. Но на четвертом складе держат тигра, значит ром пьют на пятом складе.

Теперь мы знаем, что едят и пьют на каждом складе:

  1. Красный - водка, медведь, плотник.

  2. Синий - коньяк, пума, портное.

  3. Желтый - котлета, виски, макароны, электрик.

  4. Зеленый - тигр, каменщик.

  5. Белый - вино, ром, программист.

Но ни на одном складе не едят пиццу и не держат крокодила. Значит, пиццу едят в здании, которое не указано в задаче, а крокодила держат также в неизвестном нам здании.

Ответ так и не был получен.

Command R+ со 104 млрд параметров

Command R+ - LLM нейросеть от канадской компании Cohere. Чтобы не устанавливать на ПК, я использовал Chatbot Arena. Но на huggingface.co есть и локальная версия (5_Q_M занимает 74 Гб, надо скачивать 2 файла и объединять их)

Ответ на вопрос:

Hidden text

Давай разберемся в подсказках по порядку и попытаемся составить логическую картину того, что происходит на каждом складе:

  1. Желтый склад стоит справа от синего склада.

  2. В центральном складе едят пельмени.

  3. Плотник работает на первом складе и по соседству с красным складом.

  4. Тот, кто пьет водку, держит медведя.

  5. По соседству с тем складом, где держат тигра, пьют вино.

  6. Тот, кто пьет виски, ест макароны.

  7. Программист пьет ром.

  8. Каменщик работает в зеленом складе.

  9. У портного есть леопард, а электрик ест хлеб.

  10. На желтом складе едят котлету, а в белом пьют вино.

Теперь попробуем распределить информацию по складам:

  • Первый склад (слева) - красный. Здесь работает плотник.

  • Центральный склад - здесь едят пельмени.

  • Справа от синего склада стоит желтый склад, где едят котлету.

  • В соседнем складе с тем, где держат тигра, пьют вино.

  • Тот, кто пьет виски, ест макароны, но мы не знаем, в каком именно складе это происходит.

  • Программист пьет ром, но мы не знаем, в каком складе он находится.

  • Зеленый склад - здесь работает каменщик.

  • Портной с леопардом и электрик, который ест хлеб, также пока не имеют определенного расположения.

  • В белом складе пьют вино.

Теперь попробуем ответить на твои вопросы:

Кто ест пиццу?

О пицце в подсказках ничего не говорится, поэтому мы не можем определить, кто именно ее ест.

Кто держит крокодила?

О крокодиле также нет информации в подсказках, поэтому мы не можем сказать, кто его держит.

Если у тебя есть дополнительные подсказки или ты заметил что-то, что я упустил, дай знать, и мы сможем обновить нашу логическую картину и, возможно, найти ответы на эти вопросы!

В итоге полный провал по обоим ответам.

Yi-Chat с 34 млрд параметров

Нейросеть от китайской компании 01.AI. Есть локальная версия на 25 ГБ (5_Q_M). Давайте посмотрим на что способна китайская разработка.

Ответ на вопрос:

Hidden text

Согласно данным, каменщик работает в зеленом складе, портник имеет леопард, на желтом складе едят котлету, электрик ест хлеб, желтый склад стоит справа от синего склада, и в центральном складе едят пельмени.

Кто ест пиццу?
Любой из четырех, кто не упоминается в списке: каменщик (зеленый склад), портник (леопард), электрик (хлеб), программист (ром). Этот человек, вероятно, ест пиццу.

Кто держит крокодила?
Тот, кто пьет водку, сосед того, кто держит тигра. Соответственно, этот человек, вероятно, держит крокодила.

Оба ответа совершенно не правильны.

Claude 3 Haiku

Самая младшая версия Claude 3 от американской компании Anthropic. Её старшая версия Claude 3 Opus обошла даже GPT 4 от OpenAI в рейтинге Chatbot Arena. Посмотрим на что способна Haiku (все 3 версии Claude 3 не имеют вариантов для установки на ПК)

Ответ на вопрос (ответ удручает):

Hidden text

Чтобы решить эту логическую задачу, давайте разберем все данные по порядку:

  1. Каменщик работает в зеленом складе.

  2. У портного есть леопард.

  3. На желтом складе едят котлету.

  4. Электрик ест хлеб.

  5. Желтый склад стоит сразу справа от синего склада.

  6. Тот, кто пьет коньяк разводит пуму.

  7. В белом складе пьют вино.

  8. В центральном складе едят пельмени.

  9. Плотник работает на первом складе.

  10. Сосед того, кто пьет водку, держит медведя.

  11. На складе по соседству с тем, в котором держат тигра, пьют вино.

  12. Тот, кто пьет виски, ест макароны.

  13. Программист пьет ром.

  14. Плотник работает рядом с красным складом.

Из этих данных можно сделать следующие выводы:

Таким образом, ответы на вопросы:

  • Кто ест пиццу? - Тот, кто пьет водку.

  • Кто держит крокодила? - Тот, кто держит тигра.

Claude 3 Opus

Старшая и самая продвинутая модель Claude 3. Она даже потеснила с первого места рейтинга Chatbot Arena известную GPT 4 от OpenAI. Давайте посмотрим, насколько она хороша. Ответ на вопрос:

Hidden text

Давайте систематизируем информацию и решим задачу шаг за шагом. Известно, что всего 5 складов. Для каждого склада есть информация о цвете, профессии работника, питомце, напитке и еде.

Из условия можно определить порядок складов слева направо:

  1. Белый склад (здесь работает Плотник)

  2. Красный склад

  3. Центральный склад

  4. Синий склад

  5. Желтый склад (справа от синего)

Что известно про каждый склад:

Белый (1):

  • Плотник

  • Пьют вино

Красный (2):

  • нет данных

Центральный (3):

  • Едят пельмени

Синий (4):

  • нет данных

Желтый (5):

  • Едят котлету

Зеленый (номер неизвестен):

  • Каменщик

Дополнительная информация:

  • Электрик ест хлеб

  • Тот, кто пьет коньяк, разводит пуму

  • Сосед того, кто пьет водку, держит медведя

  • На складе по соседству с тем, в котором держат тигра, пьют вино

  • Тот, кто пьет виски, ест макароны

  • Программист пьет ром

  • У портного есть леопард

Из того, что на складе по соседству с тигром пьют вино, а вино пьют в белом складе (1), можно сделать вывод, что тигра держат либо в красном (2), либо в центральном (3) складе.

Так как плотник уже работает в белом складе (1), а каменщик в зеленом, то в красном складе (2) может работать только электрик, программист или портной.

Поскольку электрик ест хлеб, программист пьет ром, а в центральном складе (3) едят пельмени, ни электрик, ни программист не могут работать в центральном складе. Значит, в центральном работает либо портной, либо тот, кто пьет водку или виски.

В желтом складе (5) едят котлету. Тот, кто пьет виски, ест макароны. Значит, в желтом работает либо электрик, либо программист, либо тот, кто пьет водку или коньяк.

В синем складе (4) остается работать либо электрику, либо программисту, либо тому, кто пьет водку, виски или коньяк.

К сожалению, имеющейся информации недостаточно, чтобы однозначно определить, кто ест пиццу и держит крокодила. В условии нет упоминаний ни о пицце, ни о крокодиле. Требуются дополнительные данные, чтобы ответить на эти вопросы.

Логически конечно она думает, но ответ она так и не предоставила. Попробуем попросить её еще раз подумать над задачей:

Hidden text

Хорошо, давайте попробуем еще раз, используя метод исключения.

Из того, что сосед того, кто пьет водку, держит медведя, можно сделать вывод, что водку пьют либо в синем (4), либо в желтом (5) складе, т.к. только у них есть соседи.

Тот, кто пьет коньяк, разводит пуму. Значит, коньяк пьют не в белом складе (1), где вино, и не в желтом (5) или синем (4), где предположительно водка. Остаются красный (2) и центральный (3) склады.

Получаем:
Белый (1): Плотник, вино, тигр
Красный (2):
Центральный (3): пельмени
Синий (4):
Желтый (5): котлета

Красный (2) или Центральный (3): коньяк, пума
Синий (4) или Желтый (5): водка, медведь

У портного леопард. Портной работает не в белом (1) складе. Если он работает в центральном (3), то в красном (2) - коньяк и пума, а в желтом (5) или синем (4) - водка и медведь. Если портной в красном (2) или желтом (5), то коньяк с пумой в центральном (3).

Электрик ест хлеб, программист пьет ром. Они могут быть либо в красном (2), либо синем (4), либо желтом (5).

Макароны ест тот, кто пьет виски. Это не белый (1), красный (2) и желтый (5) склады. Подходят только синий (4) и центральный (3).

К сожалению, все еще недостаточно информации, чтобы точно определить, кто ест пиццу и держит крокодила. Можно лишь предположить, что пиццу ест кто-то из оставшихся специалистов (электрик, программист, портной), а крокодила держит кто-то из оставшихся (электрик, программист, тот, кто пьет виски). Но это только предположения, не подкрепленные фактами из условия.

Нейронная сеть шла в правильном направлении, но так и не дала правильный ответ.

LLama 2 с 70 млрд параметров

Бум локальных нейросетей, которые можно запустить на домашнем компьютере начался именно с этой нейронной сети, которую сперва слили энтузиасты, а потом её разработчик - американская компания (имя которой нельзя произносить вслух) официально выпустила в открытый доступ по некоммерческой лицензии. Давайте посмотрим на что она способна:

Hidden text

Из задачи можно выделить несколько фактов:

  1. Каменщик работает в зеленом складе.

  2. У портного есть леопард.

  3. На желтом складе едят котлету.

  4. Электрик ест хлеб.

  5. Желтый склад стоит сразу справа от синего склада.

  6. Тот, кто пьет коньяк, разводит пуму.

  7. В белом складе пьют вино.

  8. В центральном складе едят пельмени.

  9. Плотник работает на первом складе.

  10. Сосед того, кто пьет водку, держит медведя.

  11. На складе по соседству с тем, в котором держат тигра, пьют вино.

  12. Тот, кто пьет виски, ест макароны.

  13. Программист пьет ром.

  14. Плотник работает рядом с красным складом.

Из этих фактов можно сделать выводы:

  1. Кто ест пиццу? Пиццу ест электрик, так как он ест хлеб, а хлеб и пицца - это одно и то же.

  2. Кто держит крокодила? Крокодила держит тот, кто пьет коньяк, так как он разводит пуму, а пума - это соседний с крокодилом animal.

Ответы на задачи:

  1. Электрик

  2. Тот, кто пьет коньяк

На оба вопроса она не ответила, что говорит, что с логическим мышлением у неё не очень.

Qwen 1.5 с 14 млрд параметров.

Китайская LLM нейросеть от компании Alibaba Cloud. Её ответ удручает:

Hidden text

Для решения этой логической задачи нам нужно проанализировать условия, связанные с каждым персонажем и их местоположением.

  1. Каменщик работает в зеленом складе.

  2. У портного есть леопард.

  3. На желтом складе едят котлету.

  4. Электрик ест хлеб.

  5. Желтый склад находится сразу справа от синего.

  6. Тот, кто пьет коньяк, разводит пуму.

  7. В белом складе пьют вино.

  8. В центральном складе едят пельмени.

  9. Плотник работает на первом складе.

  10. Сосед того, кто пьет водку, держит медведя.

  11. На складе, соседнем с двухтом, где держат тигра, пьют вино.

  12. Тот, кто пьет виски, ест макароны.

  13. Программист пьет ром.

  14. Плотник работает рядом с красным складом.

В задании нет прямых указаний на кто-то ест пиццу или держит крокодила. Однако, из этого материала можно сделать следующие выводы:

  • Пицца, скорее всего, едят на складах, где не указана другая еда. Нет информации о пицце в других известных местоположениях.

  • Крокодила, похоже, держит тот, кто пьет водку, но нет информации о том, что это происходит именно на одном складе.

Таким образом, мы не можем точнее ответить, кто ест пиццу или кто держит крокодила, так как нет достаточной информации в условии задачи.

Qwen 1.5 с 72 млрд параметров.

Та же Qwen 1.5, только с большим количеством параметров. Её ответ:

Hidden text

Для решения этой задачи我们需要分析给定的信息并找出与特定行为(едят пиццу, держат крокодила)相关的人物。

  1. Каменщик работает в зеленом складе.

  2. У портного есть леопард.

  3. На желтом складе едят котлеты.

  4. Электрик ест хлеб.

  5. Желтый склад стоит сразу справа от синего склада.

  6. Тот, кто пьет коньяк разводит пуму.

  7. В белом складе пьют вино.

  8. В центральном складе едят пельмени.

  9. Плотник работает на первом складе.

  10. Сосед того, кто пьет водку, держит медведя.

  11. На складе по соседству с тем, в котором держат тигра, пьют вино.

  12. Тот, кто пьет виски, ест макароны.

  13. Программист пьет ром.

  14. Плотник работает рядом с красным складом.

Из этих данных мы не можем определить, кто именно ест пиццу и держит крокодила, так как ни одно из этих действий не упомянуто в задании. Возможно, это ошибка или опущенная информация. Если бы была такая информация, мы могли бы найти ответы, связывая их с персонажами и складами. Но в текущем виде задачи ответы не могут быть найдены.

Как и младшая версия - она не смогла найти ответ на задачу. Плюс видны вставки с китайскими иероглифами. Давайте попросим её перепроверить её же решение:

Hidden text

К сожалению, без дополнительной информации о том, кто ест пиццу и держит крокодила, мы не можем продолжить решение задачи. Если бы была указана какая-то связь между персонажами, складами или их действиями с этими двумя вещами, мы смогли бы aplicate логическое мышление и угадать возможные варианты.

Например, если бы было сказано, что на красном складе едят пиццу, мы могли бы предположить, что плотник, работая рядом с красным складом, может есть пиццу (хотя это не обязательно означает, что он сам ее ест). Аналогично, если бы было указано, что портной держит крокодила, мы бы знали ответ на второй вопрос.

Но поскольку таких уточнений нет, мы не можем сделать выводов. Если есть добавленная информация или уточнения, пожалуйста, дайте знать, и я помогу решить задачу.

Со второй попытки она так и не ответила.

Deepseek LLM Chat с 67 млрд параметров

Известная LLM нейронная сеть, одна из лучших в написании кода. Её ответ:

Hidden text

Задача состоит в том, чтобы выяснить, кто ест пиццу и кто держит крокодила, используя указанные факты.

  1. Каменщик работает в зеленом складе.

  2. У портного есть леопард.

  3. На желтом складе едят котлету.

  4. Электрик ест хлеб.

  5. Желтый склад стоит сразу справа от синего склада.

  6. Тот, кто пьет коньяк разводит пуму.

  7. В белом складе пьют вино.

  8. В центральном складе едят пельмени.

  9. Плотник работает на первом складе.

  10. Сосед того, кто пьет водку, держит медведя.

  11. На складе по соседству с тем, в котором держат тигра, пьют вино.

  12. Тот, кто пьет виски, ест макароны.

  13. Программист пьет ром.

  14. Плотник работает рядом с красным складом.

Сначала определим цвета складов и их расположение.

  1. Зеленой склад - работает каменщик.

  2. Желтый склад стоит справа от синего.

  3. Белого склада - пьют вино.

  4. Центральный склад - едят пельмени.

Таким образом, цвета складов: зеленый, желтый, белый, синий, красный, центральный.

Теперь определим, кто ест пиццу и кто держит крокодила.

  1. На желтом складе едят котлету.

  2. В центральном складе едят пельмени.

  3. Тот, кто пьет коньяк разводит пуму.

  4. На складе по соседству с тем, в котором держат тигра, пьют вино.

Отсюда следует, что на желтом складе едят котлету, на белом складе пьют вино, на центральном складе едят пельмени, а на красном складе едят пиццу.

Теперь определим, кто держит крокодила.

  1. Сосед того, кто пьет водку, держит медведя.

  2. На складе по соседству с тем, в котором держат тигра, пьют вино.

Отсюда следует, что на красном складе держат тигра и на синем складе держат крокодила.

Итак, на красном складе едят пиццу, на синем складе держат крокодила.

Ответ совершенно не правильный.

Starling Lm с 7 млрд параметров

Малоизвестная нейронная сеть. Её ответ:

Hidden text

Для решения этой логической задачи мы можем использовать процесс выведения исключений. Вот возможные ответы:

  1. Кто ест пиццу?

В задаче не упоминается о пицце, но можно предположить, что на красном складе может есть пицца, поскольку плотник работает рядом с красным складом, и если он ест пиццу, то это будет логично.

  1. Кто держит крокодила?

Также в задаче не упоминается о крокодиле, но мы можем предположить, что на зеленом складе может держать крокодила каменщик. Вот причины для этих предположений:

  • На зеленом складе работает каменщик.

  • Плотник работает на первом складе и рядом с красным складом, а на красном складе не упоминается о крокодиле, поэтому мы можем сделать вывод, что на красном складе нет крокодила.

  • На жёлтом складе едят котлету, а не пиццу, поэтому плотник, работающий в центральном складе, не может держать крокодила.

  • На белом складе пьют вино, а не пиццу, поэтому плотник, работающий в центральном складе, не может держать крокодила.

  • На складе по соседству с тем, в котором держат тигра, пьют вино, но не пиццу, поэтому плотник, работающий в центральном складе, не может держать крокодила.

Таким образом, можно предположить, что на зеленом складе работает каменщик, который держит крокодила, и на красном складе едят пиццу. Однако, стоит учитывать, что сделаны эти предположения на основе информации, выделенной в задаче, и не все факты подтверждены непосредственно в тексте.

Она попыталась порассуждать, но правильный ответ так и не был получен.

Mixtral 8*7B Instruct v0.1

Известная и одна из лучших LLM нейронных сетей от французской компании Mistral AI. Давайте посмотрим насколько она хороша:

Hidden text

Нет никакой информации о том, кто ест пиццу или кто держит крокодила. Логическая задача не содержит достаточной информации, чтобы выбрать конкретные склады для этих утверждений.

По ответу она провалилась и даже не пыталась логически подумать.

Gemini Pro от Google

Главный конкурент Claude Opus и GPT 4. Давайте посмотрим насколько она хороша:

Hidden text

Кто ест пиццу:

  • Тот, кто ест пиццу, не ест ни котлету, ни хлеб, ни пельмени, ни макароны.

  • Он не работает в зеленом складе, потому что там работает каменщик.

  • Он не работает на первом складе, потому что там работает плотник.

  • Он не работает в центральном складе, потому что там едят пельмени.

  • Он не работает в желтом складе, потому что там едят котлету.

  • Он не работает в синем складе, потому что желтый склад стоит справа от него.

Единственный оставшийся склад - белый.

Кто держит крокодила:

  • Сосед того, кто держит крокодила, держит тигра.

  • Тот, кто держит тигра, пьет вино.

  • Вино пьют только в двух складах: белом и зеленом.

  • Зеленый склад занят каменщиком.

Следовательно, крокодила держит тот, кто работает в белом складе.

Попросим её перепроверить ответ:

Hidden text

Кто ест пиццу:

Белый склад.

Кто держит крокодила:

Белый склад.

Перепроверка:

  • Каменщик работает в зеленом складе, поэтому он не может есть пиццу или держать крокодила.

  • Портной имеет леопарда, но не упоминается, что он ест пиццу или держит крокодила.

  • В желтом складе едят котлету, поэтому там не могут есть пиццу или держать крокодила.

  • Электрик ест хлеб, поэтому он не может есть пиццу или держать крокодила.

  • Желтый склад находится справа от синего склада, поэтому синий склад не может быть белым складом.

  • Тот, кто пьет коньяк, разводит пуму, но не упоминается, что он ест пиццу или держит крокодила.

  • В белом складе пьют вино, а тот, кто держит тигра, тоже пьет вино. Тигр не может быть в белом складе, потому что там нет места для крокодила.

  • Тот, кто пьет виски, ест макароны, поэтому он не может есть пиццу или держать крокодила.

  • Программист пьет ром, но не упоминается, что он ест пиццу или держит крокодила.

  • Плотник работает на первом складе, а красный склад находится рядом с ним. Первый склад не может быть белым складом, потому что там работает плотник, а не каменщик.

  • Сосед того, кто пьет водку, держит медведя, но не упоминается, что он ест пиццу или держит крокодила.

Таким образом, единственный оставшийся склад, где можно есть пиццу и держать крокодила, - это белый склад.

Решение верно.

Полный провал в ответе.

OpenChat 3.5

Это не знаменитая ChatGPT 3.5, а всего лишь разновидность Mixtral 7b (7 млрд параметров). Итак как она ответила:

Hidden text

Зеленый склад - это склад каменщика. Желтый склад - это склад, где едят котлету, и он стоит сразу справа от синего склада. Синий склад - это центральный склад, где едят пельмени. Красный склад - это первый склад, где работает плотник. Белый склад - это склад, где пьют вино.

Теперь рассмотрим, кто держит крокодила:

  1. Зеленый склад - каменщик (не упоминается о крокодиле).

  2. Желтый склад - котлета (не упоминается о крокодиле).

  3. Синий склад - пельмени (не упоминается о крокодиле).

  4. Красный склад - плотник (не упоминается о крокодиле).

  5. Белый склад - вино (не упоминается о крокодиле).

  6. Центральный склад - пельмени (не упоминается о крокодиле).

Теперь рассмотрим, кто ест пиццу:

  1. Зеленый склад - каменщик (не упоминается о пицце).

  2. Желтый склад - котлета (не упоминается о пицце).

  3. Синий склад - пельмени (не упоминается о пицце).

  4. Красный склад - плотник (не упоминается о пицце).

  5. Белый склад - вино (не упоминается о пицце).

  6. Центральный склад - пельмени (не упоминается о пицце).

В задаче упоминается, что плотник работает на первом складе и рядом с красным складом. Тогда красный склад - это первый склад, а плотник работает в белом складе (поскольку белый склад рядом с красным складом). Белый склад - это склад, где пьют вино, поэтому плотник пьет вино.

Теперь осталось определить, кто держит крокодила:

  1. Зеленый склад - каменщик (не упоминается о крокодиле).

  2. Желтый склад - котлета (не упоминается о крокодиле).

  3. Синий склад - пельмени (не упоминается о крокодиле).

  4. Красный склад - плотник (пьет вино).

  5. Белый склад - вино (плотник).

  6. Центральный склад - пельмени (не упоминается о крокодиле).

Программист пьет ром, но в задаче не упоминается о том, что он держит крокодила. Поэтому из упомянутых складов только в белом складе, где пьют вино, можно предположить, что там держится крокодил.

Кто ест пиццу и кто держит крокодила:

  1. Пиццу: Не указано, кто ест пиццу.

  2. Крокодил: Белый склад, где пьют вино.

Ответ так и не был получен.

ChatGPT 3.5

Знаменитая ChatGPT 3.5, которая взбудоражила весь мир и открыла дорогу LLM нейросетям в мир. Какой же будет её ответ на нашу задачу:

Hidden text

Исходя из предоставленной информации:

  1. Каменщик работает в зеленом складе.

  2. Портной имеет леопарда.

  3. На желтом складе едят котлету.

  4. Электрик ест хлеб.

  5. Желтый склад находится справа от синего склада.

  6. Тот, кто пьет коньяк, разводит пуму.

  7. В белом складе пьют вино.

  8. В центральном складе едят пельмени.

  9. Плотник работает на первом складе.

  10. Сосед того, кто пьет водку, держит медведя.

  11. На складе рядом с тем, в котором держат тигра, пьют вино.

  12. Тот, кто пьет виски, ест макароны.

  13. Программист пьет ром.

  14. Плотник работает рядом с красным складом.

Исходя из этой информации, можно сделать следующие выводы:

  • Красный склад находится рядом с плотником.

  • Желтый склад находится справа от синего склада, следовательно, синий склад не может быть первым.

  • Тот, кто пьет водку, не может быть соседом плотника, поэтому водку пьет кто-то другой.

  • Сосед того, кто пьет водку, держит медведя, а медведь не может быть на первом складе, так как там работает плотник. Значит, медведь находится на втором, третьем, четвертом или пятом складе.

  • Тот, кто пьет виски, ест макароны, и это не программист, так как программист пьет ром. Значит, кто-то другой пьет виски и ест макароны.

  • Желтый склад находится сразу справа от синего склада, но не может быть первым складом, так как на первом складе работает плотник.

  • В белом складе пьют вино, а на складе рядом с тем, в котором держат тигра, пьют вино. Значит, белый склад и склад с тигром не могут быть соседними.

  • Программист пьет ром, а плотник работает на первом складе. Значит, программист и плотник не могут быть одним и тем же человеком.

Исходя из этих выводов, можно ответить на вопросы:

Кто ест пиццу? - Информации о том, кто ест пиццу, нет.

Кто держит крокодила? - Информации о том, кто держит крокодила, нет.

Ответ конечно сильно удручает.

GPT 4 - версия от 6 ноября 2023 года

И вот она знаменитая GPT 4 от компании OpenAI. Давайте посмотрим как у неё с логикой:

Hidden text

Давайте решим эту логическую задачу пошагово. Из условий задачи известно, что у нас есть пять складов, и каждый склад имеет уникальный цвет. Нам дана информация о том, что люди едят, пьют, какие животные у них есть и где они работают. Наша задача — выяснить, кто ест пиццу и кто держит крокодила.

  1. Плотник работает на первом складе.

  2. Желтый склад стоит справа от синего склада.

  3. В центральном складе едят пельмени.

  4. В белом складе пьют вино.

  5. Сосед того, кто пьет водку, держит медведя.

  6. На складе по соседству с тем, в котором держат тигра, пьют вино.

  7. Плотник работает рядом с красным складом.

Из этих подсказок мы можем начать располагать склады:

  • Поскольку желтый склад стоит сразу справа от синего, и мы знаем, что плотник работает на первом складе, который рядом с красным, склады можно начать располагать так: [1: Плотник], [2: Красный], [3: Синий], [4: Желтый], [5: _]. Учитывая, что в центре едят пельмени, на четвертом складе едят котлету, и в белом складе пьют вино, а также помня про вино рядом с тигром, можно предположить расположение некоторых элементов.

  • Программист пьет ром, электрик ест хлеб, и у портного леопард. Тот, кто пьет коньяк, разводит пуму, а тот, кто пьет виски, ест макароны.

Рассматривая все условия, мы видим, что некоторые из них помогут расставить детали точнее, но для ответа на вопросы, нам нужно уточнить детали:

  • Кто ест пиццу? Кто держит крокодила?

Из данных условий мы не можем напрямую вывести, кто ест пиццу и кто держит крокодила, не проработав все остальные условия задачи и не расставив всех животных, профессии, напитки и еду по складам. Однако, основываясь на логике задач подобного типа, можно предположить, что ответы на эти вопросы будут зависеть от того, какие детали мы упустили или не раскрыли полностью.

В данном случае, без полного решения задачи, я неправильно начал расположение элементов без полного анализа всех условий. Для точного ответа необходимо учесть все условия и корректно распределить элементы. Поскольку в условиях не даны прямые указания на пиццу и крокодила, а также моё предыдущее объяснение не привело к решению, давайте подойдём к задаче более систематически.

Мы знаем, что:

  • У каждого есть разный напиток, еда, животное и профессия.

  • Нужно учитывать расположение

продолжи

Извините за путаницу в предыдущем сообщении. Давайте попробуем систематически подойти к решению задачи, учитывая все данные факты:

  1. В центральном складе (3) едят пельмени.

  2. Желтый склад стоит сразу справа от синего склада.

  3. В белом складе пьют вино.

  4. Плотник работает на первом складе.

  5. Плотник работает рядом с красным складом.

  6. На желтом складе едят котлету.

  7. Электрик ест хлеб.

  8. Тот, кто пьет коньяк, разводит пуму.

  9. Сосед того, кто пьет водку, держит медведя.

  10. На складе по соседству с тем, где держат тигра, пьют вино.

  11. Тот, кто пьет виски, ест макароны.

  12. Программист пьет ром.

  13. Каменщик работает в зеленом складе.

  14. У портного есть леопард.

Из условия 5 и 2 можно определить, что синий склад не может быть первым, а значит, первый склад красный. Следовательно, порядок части складов таков: 1 (Плотник, Красный), 2 (Синий), 3 (Центр, Пельмени), 4 (Желтый, Котлета), 5 (?). Белый склад остается последним вариантом для пятого склада, на котором пьют вино.

Теперь, когда мы знаем расположение и некоторые детали, можно попытаться установить, где что находится:

  • Так как белый склад пятый и там пьют вино, рядом с тигром, то тигр должен быть либо на четвертом, либо на пятом складе. Но так как мы не можем точно определить, где пьют водку и кто держит медведя без дополнительных данных, давайте перейдем к уточнению деталей про пиццу и крокодила.

С учетом имеющихся данных и исправлений, моя попытка решения была некорректной, так как для точного решения задачи требуется более детальный анализ.

Исходя из условий задачи, мы не имеем прямых указаний на то, кто ест пиццу и кто держит крокодила, что указывает на то, что эти детали должны быть выведены из оставшихся неиспользованными фактами после распределения всех остальных деталей (профессии, еда, напитки, животные) по складам. Чтобы правильно ответить на ваши вопросы, нужно полностью решить задачу, расставив все элементы по местам.

К сожалению, в моем предыдущем объяснении я не предоставил полного и точного решения, что не позволяет напрямую ответить на ваши вопросы. В таких задачах каждое предложение важно для логического вывода расстановки всех элементов, и без полного распределения всех элементов невозможно точно сказать, кто ест пиццу и кто держит крокодила.

Для правильного решения необходимо вз

продолжи

Давайте попробуем решить задачу заново, учитывая все условия.

  1. Пять складов - каждый склад имеет разный цвет.

  2. Каменщик работает в зеленом складе.

  3. У портного есть леопард.

  4. На желтом складе едят котлету.

  5. Электрик ест хлеб.

  6. Желтый склад стоит справа от синего склада.

  7. Тот, кто пьет коньяк, разводит пуму.

  8. В белом складе пьют вино.

  9. В центральном складе едят пельмени.

  10. Плотник работает на первом складе.

  11. Сосед того, кто пьет водку, держит медведя.

  12. На складе по соседству с тем, в котором держат тигра, пьют вино.

  13. Тот, кто пьет виски, ест макароны.

  14. Программист пьет ром.

  15. Плотник работает рядом с красным складом.

Построим логическую цепочку:

  • Поскольку плотник на первом складе и рядом с красным, значит первый склад - красный, и плотник там работает.

  • Желтый стоит сразу справа от синего, значит синий не может быть пятым, а желтый не может быть первым. Учитывая, что в центре (3-й склад) едят пельмени, а на желтом едят котлету, то последовательность может быть такой: синий, желтый. Это делает желтый склад 4-м по счету.

  • В белом складе пьют вино, и вино пьют по соседству с тигром. Это должно помочь нам дальше, но пока оставим эту информацию.

  • Каменщик в зеленом складе, значит, зеленый склад может быть только пятым, так как все остальные цвета и места определены.

  • Центральный склад (3-й) - это единственный оставшийся, значит, он белый.

Теперь у нас есть распределение по цветам и некоторые профессии:

  1. Красный (Плотник)

  2. Синий

  3. Белый (Пельмени)

  4. Желтый (Котлета)

  5. Зеленый (Каменщик)

Теперь, чтобы определить, кто ест пиццу и кто держит крокодила, нам нужно рассмотреть оставшиеся подсказки. Однако, учитывая ошибку в предыдущем объяснении, и что эти детали (пиццу и крокодила) не были прямо упомянуты в условиях, представленных в начале, исходя из логики подобных задач, мы можем предположить, что эти элементы заполняют оставшиеся пустые места после полного анализа всех доступных фактов.

Важно понять, что без полного распределения всех элементов (животные, еда, напитки, профессии) и прямых указаний на пиццу и крокодила в условиях, предоставленных в начале,

продолжи

мы не можем точно определить, кто ест пиццу и кто держит крокодила. Моя предыдущая попытка решения не учитывала все условия задачи должным образом, и я не предоставил полное решение.

Для того чтобы дать точный ответ на ваши вопросы, давайте восстановим недостающие части решения, учитывая, что мы можем только предположить возможные варианты для дальнейшего анализа:

Поскольку моё предыдущее объяснение не привело к конкретным ответам и было прервано, я приведу логическое завершение на основании типичного метода решения подобных задач. Это предполагает анализ и дедуктивное рассуждение на основе предоставленной информации, хотя без полного списка условий, касающихся еды и животных для каждого склада, это сделать сложно.

Однако, исходя из типичного решения подобных задач, мы можем предположить следующее:

  1. Если в задаче упоминаются разные виды еды, напитков, животных и профессий, исключение (тот, кто ест пиццу или держит крокодила) возможно следует из тех данных, что не были прямо связаны с другими элементами. Например, если мы знаем, что на одном из складов едят только определённые виды еды и пицца не упоминается среди них, тогда тот, кто ест пиццу, должен быть связан с тем складом или профессией, про которые у нас меньше всего информации.

  2. Животные и профессии обычно связаны прямо с определёнными людьми. Если у нас есть информация о том, что у портного леопард, а каменщик работает в зеленом складе, то крокодил, скорее всего, связан с тем человеком или складом, о которых у нас меньше всего информации.

К сожалению, без полного списка условий и точного анализа всех данных, указать, кто именно ест пиццу и кто держит крокодила, невозможно. В реальном решении задачи такого типа требуется тщательный анализ всех улик и пошаговое исключение невозможных вариантов, чтобы прийти к правильному ответу.

Извините за предыдущую путаницу в попытках решения. Важно помнить, что подобные логические задачи требуют аккуратности и внимания к деталям каждого из условий.

продолжи

Поскольку я не предоставил полного и точного решения задачи, давайте попробуем сделать общий анализ и предположения, которые могут помочь нам приблизиться к ответу на основе представленных данных. Однако, стоит учесть, что без полного списка условий, касающихся всех аспектов задачи (включая распределение всех животных, профессий, еды и напитков по складам), наш анализ будет носить предположительный характер.

  1. Расположение складов и цвета: Мы выяснили расположение некоторых складов по цветам и определили, что плотник работает на первом складе, который красный, желтый склад идет после синего, что ставит их в середину нашего ряда. Белый и зеленый склады также были размещены по оставшимся позициям.

  2. Профессии и животные: Было установлено, что у портного леопард и каменщик работает в зеленом складе. Эти детали помогают нам начать привязывать определённые характеристики к конкретным складам и их обитателям.

  3. Еда и напитки: Известно, что на желтом складе едят котлету, в белом складе пьют вино, и в центральном складе едят пельмени. Эти факты помогают нам дополнительно уточнять информацию о каждом складе.

Возвращаясь к вашему вопросу о том, кто ест пиццу и кто держит крокодила, можно сделать вывод, что эти детали должны быть связаны с теми складами или профессиями, о которых у нас меньше всего информации в представленных данных. Вероятно, эти элементы являются ключевыми для заполнения пробелов в информации, которую мы располагаем.

К сожалению, без полного анализа всех условий и данных, предоставленных в задаче, точно определить, кто ест пиццу и кто держит крокодила, невозможно. В реальной логической задаче такого типа необходимо учитывать каждое утверждение и шаг за шагом исключать невозможные варианты, чтобы найти единственно правильное решение, удовлетворяющее всем условиям.

Я приношу извинения за невозможность предоставить более точного и полного решения вашего запроса. Если у вас есть дополнительные детали или условия задачи, пожалуйста, предоставьте их, и я буду рад попытаться помочь вам снова.

В итоге она так и не ответила на вопросы, но попыталась порассуждать.

GPT 4 - версия от 13 июня 2023 года

Более старая версия GPT 4 от компании OpenAI. Давайте посмотрим как у неё с логикой:

Hidden text

Решим эту задачу пошагово, используя всю доступную информацию:

  1. Плотник работает на первом складе. Склады располагаем в следующем порядке: Плотник - ? - ? - ? - ?.

  2. Плотник работает рядом с красным складом. Так как плотник работает на первом складе, то красный склад — это второй склад: Плотник - Красный - ? - ? - ?.

  3. Желтый склад стоит сразу справа от синего склада. Значит, эта пара занимает третий и четвертый склады: Плотник - Красный - Синий - Желтый - ?.

  4. В центральном складе едят пельмени. Значит, в синем складе едят пельмени: Плотник/Пельмени - Красный - Синий/Пельмени - Желтый - ?.

  5. На желтом складе едят котлету. Это дает нам: Плотник/Пельмени - Красный - Синий/Пельмени - Желтый/Котлета - ?.

  6. У портного есть леопард. Портной не может быть на желтом складе, потому что там едят котлету, и не может быть на синем складе, потому что там едят пельмени. Значит, портной — на красном складе: Плотник/Пельмени - Портной/Красный - Синий/Пельмени - Желтый/Котлета - ?.

  7. Каменщик работает в зеленом складе. Поскольку четыре других склада уже заняты, каменщик работает на последнем складе: Плотник/Пельмени - Портной/Красный - Синий/Пельмени - Желтый/Котлета - Каменщик/Зеленый.

  8. В белом складе пьют вино. Поскольку все другие цвета уже заняты, белым должен быть первый склад: Плотник/Пельмени/Белый - Портной/Красный - Синий/Пельмени - Желтый/Котлета - Каменщик/Зеленый.

  9. На складе по соседству с тем, в котором держат тигра, пьют вино. Значит, тигр находится на втором складе: Плотник/Пельмени/Белый - Портной/Тигр/Красный - Синий/Пельмени - Желтый/Котлета - Каменщик/Зеленый.

  10. Тот, кто пьет коньяк разводит пуму. Этот человек не может быть плотником, так как плотник пьет вино, и не может быть портным, так как портной держит тигра. Значит, этот человек находится на синем складе: Плотник/Пельмени/Белый - Портной/Тигр/Красный - Синий/Пума/Пельмени/Коньяк - Желтый/Котлета - Каменщик/Зеленый.

  11. Сосед того, кто пьет водку, держит медведя. Этот человек не может быть на синем складе, так как там пьют коньяк, и не может быть на белом складе, так как там

продолжи решение

Продолжим решение:

  1. Сосед того, кто пьет водку, держит медведя. Этот человек не может быть на синем складе, так как там пьют коньяк, и не может быть на белом складе, так как там пьют вино. Значит, медведь находится на желтом складе, а водка пьется на зеленом складе: Плотник/Пельмени/Белый - Портной/Тигр/Красный - Синий/Пума/Пельмени/Коньяк - Желтый/Медведь/Котлета - Каменщик/Зеленый/Водка.

  2. Тот, кто пьет виски, ест макароны. Этот человек не может быть на синем складе, так как там пьют коньяк, не может быть на желтом складе, так как там едят котлету, и не может быть на зеленом складе, так как там пьют водку. Значит, этот человек находится на красном складе: Плотник/Пельмени/Белый - Портной/Тигр/Макароны/Виски/Красный - Синий/Пума/Пельмени/Коньяк - Желтый/Медведь/Котлета - Каменщик/Зеленый/Водка.

  3. Программист пьет ром. Программист не может быть на синем складе, так как там пьют коньяк, не может быть на красном складе, так как там пьют виски, и не может быть на зеленом складе, так как там пьют водку. Значит, программист работает на белом складе: Программист/Пельмени/Ром/Белый - Портной/Тигр/Макароны/Виски/Красный - Синий/Пума/Пельмени/Коньяк - Желтый/Медведь/Котлета - Каменщик/Зеленый/Водка.

  4. Теперь, по исключению, электрик работает на синем складе, а его еда - хлеб: Программист/Пельмени/Ром/Белый - Портной/Тигр/Макароны/Виски/Красный - Электрик/Пума/Хлеб/Коньяк/Синий - Желтый/Медведь/Котлета - Каменщик/Зеленый/Водка.

  5. Т.к. на белом складе едят пельмени, на красном - макароны, на синем - хлеб, на желтом - котлету, то на зеленом складе едят пиццу: Программист/Пельмени/Ром/Белый - Портной/Тигр/Макароны/Виски/Красный - Электрик/Пума/Хлеб/Коньяк/Синий - Желтый/Медведь/Котлета - Каменщик/Пицца/Зеленый/Водка.

  6. У портного леопард, на синем складе - пума, на желтом - медведь, на красном - тигр, следовательно, на белом складе - крокодил: Программист/Крокодил/Пельмени/Ром/Белый - Портной/Тигр/Макароны/Виски/Красный

продолжи решение

Извините за предыдущую ошибку, на красном складе - леопард, не тигр. Продолжим решение:

  1. У портного леопард, на синем складе - пума, на желтом - медведь, на красном - леопард, следовательно, на белом складе - крокодил: Программист/Крокодил/Пельмени/Ром/Белый - Портной/Леопард/Макароны/Виски/Красный - Электрик/Пума/Хлеб/Коньяк/Синий - ?/Медведь/Котлета/Желтый - Каменщик/Пицца/Зеленый/Водка.

  2. Теперь, по исключению, тигр находится на желтом складе: Программист/Крокодил/Пельмени/Ром/Белый - Портной/Леопард/Макароны/Виски/Красный - Электрик/Пума/Хлеб/Коньяк/Синий - ?/Тигр/Котлета/Желтый - Каменщик/Пицца/Зеленый/Водка.

  3. Теперь мы знаем, что плотник работает на белом складе, портной - на красном, электрик - на синем и каменщик - на зеленом, значит, на желтом складе работает единственный оставшийся профессионал - водопроводчик: Программист/Крокодил/Пельмени/Ром/Белый - Портной/Леопард/Макароны/Виски/Красный - Электрик/Пума/Хлеб/Коньяк/Синий - Водопроводчик/Тигр/Котлета/Желтый - Каменщик/Пицца/Зеленый/Водка.

Таким образом, пиццу ест каменщик, а крокодила держит программист.

Эта нейронная сеть смогла ответить на вопрос про то, кто держит крокодила! Попросим её перепроверить решение, так как с вопросом про пиццу она ошиблась.

Hidden text

Извините за ошибку ранее. Давайте перепроверим все шаги:

  1. Плотник работает на первом складе.

  2. Плотник работает рядом с красным складом. Таким образом, красный склад находится на втором месте.

  3. Желтый склад стоит справа от синего, значит, синий и желтый склады находятся на третьем и четвертом местах соответственно.

  4. Остается только зеленый склад, который занимает последнее, пятое место.

  5. В центральном складе едят пельмени, поэтому на синем складе едят пельмени.

  6. На желтом складе едят котлету.

  7. Каменщик работает в зеленом складе.

  8. Сосед того, кто пьет водку, держит медведя. Это значит, что медведь либо на желтом, либо на зеленом складе. Но на зеленом складе работает каменщик, а у него нет медведя, поэтому медведь на желтом складе.

  9. Программист пьет ром. Он не может работать на зеленом складе (там работает каменщик), и не может работать на синем складе (там едят пельмени), поэтому программист работает на первом складе.

  10. Электрик ест хлеб. Он не может работать на первом складе (там работает программист), и не может работать на желтом складе (там едят котлету), поэтому электрик работает на синем складе.

  11. На складе по соседству с тем, в котором держат тигра, пьют вино. Это значит, что тигр либо на синем, либо на зеленом складе. Но на синем складе работает электрик, у которого нет тигра, поэтому тигр на зеленом складе.

  12. У портного есть леопард. Портной не может работать на первом складе (там работает программист), на синем складе (там работает электрик), и на зеленом складе (там работает каменщик), поэтому портной работает на красном складе.

  13. Тот, кто пьет коньяк, разводит пуму. Он не может работать на первом складе (там работает программист), на красном складе (там работает портной), и на зеленом складе (там работает каменщик), поэтому этот человек работает на синем складе. Значит, у электрика пума.

  14. Остается только желтый склад, где работает водопроводчик.

  15. На первом складе пьют вино, на втором пьют виски, на третьем пьют коньяк, на пятом пьют водку. Значит, на желтом складе пьют пиво.

  16. На первом складе едят пиццу, на третьем едят пельмени, на четвертом едят котлету, на пятом едят макароны. Значит, на красном складе едят блины.

  17. На первом складе держат крокодила, на втором держат леопарда, на третьем держат пуму, на

продолжи решение

Извините за перерыв. Продолжим решение:

  1. На первом складе держат крокодила, на втором держат леопарда, на третьем держат пуму, на четвертом держат медведя. Следовательно, на пятом складе держат тигра.

В итоге получаем следующую таблицу:

  1. Программист/Крокодил/Пицца/Вино/Белый

  2. Портной/Леопард/Блины/Виски/Красный

  3. Электрик/Пума/Пельмени/Коньяк/Синий

  4. Водопроводчик/Медведь/Котлета/Пиво/Желтый

  5. Каменщик/Тигр/Макароны/Водка/Зеленый

Ответы на ваши вопросы:

  1. Пиццу ест программист.

  2. Крокодила держит программист.

В итоге она ответила правильно только на один вопрос - кто держит крокодила.

Итоговый результат

С одним вопросом из двух смогла справиться только GPT 4. Claude 3 Opus смогла подобраться близко, но так и не ответила ни на один вопрос. Остальные LLM нейросети даже близко не приблизились к этим ограниченным результатам.

Однако можно сказать, что логическое мышление есть у GPT 4. Ждем GPT 5? :)

Комментарии (22)


  1. t3hk0d3
    09.04.2024 15:45
    +1

    Честно говоря для меня вообще удивительно что они пытаются их решить :)


    1. MarselMM Автор
      09.04.2024 15:45

      Интересно же, есть ли у них логика и пространственное мышление)


      1. Sap_ru
        09.04.2024 15:45
        +7

        Вы совсем не знаете, что такое генеративные сети? Что значит "интересно"? Логика и мышление требуют последовательных рассуждений и внутреннего цензора, а текущие сети это прямые преобразователи входа на выход. Без памяти, обратных связей, последовательной работы и самоконтроля. Соответственно, у них нет и не может быть логики и пространственного (и любого другого) мышления, и они гарантированно подвержены бесконтрольным галлюцинациям, как их ни обучай и какого размера их ни делай.


        1. MarselMM Автор
          09.04.2024 15:45

          Claude 3 Opus и GPT4 показали ведь хорошее решение в задачке


          1. Sap_ru
            09.04.2024 15:45
            +1

            А на задачах, на которых их учили, они вообще блестящие результаты покажут! Но это именно генеративный подход, а не реальное решение задачи.


        1. man4j
          09.04.2024 15:45

          Ну, они же созданы не чтобы понимать, а чтобы угождать ) Как менеджер продажник примерно.


      1. man4j
        09.04.2024 15:45

        Я кстати тоже проверял все перечисленные модели. Первый мой вопрос: "На ветке сидело 8 ворон, охотник застрелил одну, сколько осталось". Второй вопрос: "Кирпич весит 1кг плюс ещё половина кирпича, сколько весит кирпич". Из open weight моделей только мика справилась с первого раза без подсказок.


  1. rPman
    09.04.2024 15:45
    +1

    Встречный вопрос, много ли ЛЮДЕЙ сумеют решить эту задачу в уме, без бумажки с ручкой?

    Почему все ожидают от языковой модели внутренних рассуждений, когда как она действует почти интуитивно, делая буквально считанные шаги (фиксированный набор, скорее всего количество зависит от количества слоев сети) размышлений, в некоторых случаях эти шаги можно расширить, добавив магическое think step by step.

    Чтобы GPT модель могла решать такие задачи, во первых на логику и математику она должна быть обучена, когда как большинство доступных моделей в первую очередь учат маркетингу и литературе и только потом всему остальному. Чудо уже то что они программировать могут. А во вторых - поверх модели необходимо разработать приложение, которое сложной серией запросов и вызовов, сумеет разобрать задачу на подзадачи, собирая попутно в контексте временной памяти (аналог листочка для человека) текущее состояние, и уже после, собрав достаточно данных, сможет дать ответ.

    p.s. а еще большинство открытых моделей русский язык знают для галочки, объем обучающей выборки в нем у них несоизмеримо меньше чем англоязычный и рассуждают они на русском в каком то смысле хуже.

    Работайте с ИИ на английском.


    1. man4j
      09.04.2024 15:45

      ну если модель сможет грамотно раздуть контекст и всё разложить по полочкам, то и сдуть контекст(прийти к правильному решению) она тоже сможет. всё дело в способности раздувать контекст, а это зависит от того на каких размерах контекста она была обучена. Вообщем я к тому, что размер решает и скоро я думаю контекст достигнет объема которого хватит для решения таких задач.


      1. rPman
        09.04.2024 15:45

        есть мнение что сама архитектура gpt не позволит делать это для любых задач, повторяю, нужно будет увеличивать количество слоев ну или менять кардинально архитектуру.

        внешние костыли и нужны чтобы обойти эти ограничения.


    1. novoselov
      09.04.2024 15:45

      Проверил на английском: ни GPT 4, ни Gemini 1.5 Pro не справились


    1. aspect04tenor
      09.04.2024 15:45

      Нужна только обучающая выборка чуть побольше, и оно точно начнёт логически мыслить.

      «Надо просто верить, этого вполне достаточно»


  1. LinkToOS
    09.04.2024 15:45

    Не совсем корректное тестирование.
    Задача все же не логическая, а на подбор варианта. Условия задачи даны неполные. Промпт рассчитан на нейросеть очень высокого уровня.

    Первое что должна здесь делать нейросеть, это дополнить условие задачи, и проверить корректность вопросов. Для этого она должна определить принадлежность смысловых объектов к классам - еда, напитки, животные, цвета, профессии. После этого исключается вариант что задача с подвохом - типа вопроса "у кого из них вертолет".
    Собственно это первый тест, с которого надо было начать - задать вопрос с объектом несоответствующим указанным в условиях классам - типа "кто лох" или "у кого красные ботинки".
    Человек сразу понимает что "пицца" и "крокодил" соответствуют классам. Нейросеть тоже должна сначала указать на соответствие. Если нейросеть не переписала условия в дополненном виде, значит возможно задача распознана некорректно.

    Промпт скорее должен быть таким - "найди комбинацию соответствующую условиям", и перечислить условия.
    Иначе нейросеть должна сначала "порыться в памяти" или в инете, и найти похожую задачу. И по идее даже определить что это именно "загадка Эйнштейна", и сказать об этом. Это вполне возможно. Но опять же - это для нейросети очень высокого уровня.


  1. Kergan88
    09.04.2024 15:45

    а сама логика задача была изменена? это тоже необходимо делать для корректности теста

    @rPman

    Встречный вопрос, много ли ЛЮДЕЙ сумеют решить эту задачу в уме, без бумажки с ручкой?

    но у сети же просят именно решение "с бумажкой и ручкой". аналог решения в уме для сетки - это генерация ответа в виде одного единственного токена, который бы кодировал ответ.

    есть мнение что сама архитектура gpt не позволит делать это для любых задач

    практически ни для каких не сможет, на самом деле - все, что не может сделать КА, не сможет сделать и гпт (если точнее - это потребует экспоненциального роста числа параметров в зависимости от размера задачи).


    1. rPman
      09.04.2024 15:45

      Я и говорю, что GPT в одиночку скорее всего не сможет решать задачи универсально, то что у нее это получается, я считаю, да и исследователи намекают, только за счет невероятной избыточности мощности (к сожалению существующие алгоритмы обучения слишком дороги, и может оказаться дешевле обучить качественную большую модель, парадоксально).

      Но вот gpt как часть более сложного алгоритма, на текущий момент это итеративные комплексы, где в т.ч. разные специализированные модели, решают каждая свою подзадачу, декомпозируют, собирают, суммаризируют, и собирают частные решения на стороне. Отличный пример - инструменты использующие поиск в базах данных и интернете, отдельная модель выделяет и формирует запросы в поисковую систему, другие ищут, третьи собирают и удерживают контекст..

      Еще пример, я писал переводчик художественной литературы на основе gpt, отдельный модуль собирает информацию о персонажах и локациях, другой определяет какая часть информации должна быть добавлена в контекст, третья собирает уже готовые переведенные части и добавляет их в промпт как few-shot механизм (часть перевода - с ручной корректировкой)... т.е. это не то же самое что закинуть тупо всю книгу в модель и ожидать что она все переведет, результат в лучшем случае будет с большим количеством ошибок.


  1. uhf
    09.04.2024 15:45

    На английском результаты будут лучше.


    1. novoselov
      09.04.2024 15:45

      Проверил на английском: ни GPT 4, ни Gemini 1.5 Pro не справились


  1. septa
    09.04.2024 15:45
    +2

    ChatGPT 4 Выдал такой код, но не смог его воспроизвести из-за длительного времени выполнения:


    from itertools import permutations # Define the possible attributes for each of the warehouses colors = ['зеленый', 'желтый', 'синий', 'белый', 'красный'] professions = ['каменщик', 'портной', 'электрик', 'плотник', 'программист'] animals = ['леопард', 'пума', 'медведь', 'тигр', 'крокодил'] foods = ['котлета', 'хлеб', 'пельмени', 'макароны', 'пицца'] drinks = ['коньяк', 'вино', 'водка', 'ром', 'виски'] # Generate all possible arrangements for color_perm in permutations(colors): for profession_perm in permutations(professions): for animal_perm in permutations(animals): for food_perm in permutations(foods): for drink_perm in permutations(drinks): # Check the given conditions if color_perm.index('зеленый') != profession_perm.index('каменщик'): continue if profession_perm.index('портной') != animal_perm.index('леопард'): continue if color_perm.index('желтый') != food_perm.index('котлета'): continue if profession_perm.index('электрик') != food_perm.index('хлеб'): continue if color_perm.index('желтый') - 1 != color_perm.index('синий'): continue if drink_perm.index('коньяк') != animal_perm.index('пума'): continue if color_perm.index('белый') != drink_perm.index('вино'): continue if food_perm[2] != 'пельмени': continue if profession_perm[0] != 'плотник': continue if abs(drink_perm.index('водка') - animal_perm.index('медведь')) != 1: continue if abs(animal_perm.index('тигр') - drink_perm.index('вино')) != 1: continue if drink_perm.index('виски') != food_perm.index('макароны'): continue if profession_perm.index('программист') != drink_perm.index('ром'): continue if 1 not in [abs(color_perm.index('красный') - profession_perm.index('плотник')), color_perm.index('красный')]: continue # If all conditions are met, print the result idx_pizza = food_perm.index('пицца') idx_crocodile = animal_perm.index('крокодил') profession_pizza = profession_perm[idx_pizza] profession_crocodile = profession_perm[idx_crocodile] print(f"Кто ест пиццу: {profession_pizza}, кто держит крокодила: {profession_crocodile}") break

    Output:
    Кто ест пиццу: плотник, кто держит крокодила: программист

    "It seems that solving the puzzle through brute force permutations took too long."
    "It seems that solving the puzzle through brute force permutations took too long."


    Так что по факту он справился, только его вычислительные ресурсы искусственно ограничены.


    1. longclaps
      09.04.2024 15:45
      +1

      Оно не умеет отсекать тупиковые ветки, что достигается простым подтягиванием условий в тот цикл, где эти условия разрешимы. Если пофиксить это и еще пару косяков - решает мгновенно.

      Боюсь-боюсь.

      from itertools import permutations
      
      # Define the possible attributes for each of the warehouses
      colors = ["зеленый", "желтый", "синий", "белый", "красный"]
      professions = ["каменщик", "портной", "электрик", "плотник", "программист"]
      animals = ["леопард", "пума", "медведь", "тигр", "крокодил"]
      foods = ["котлета", "хлеб", "пельмени", "макароны", "пицца"]
      drinks = ["коньяк", "вино", "водка", "ром", "виски"]
      # Generate all possible arrangements
      for color_perm in permutations(colors):
          if color_perm.index("желтый") - 1 != color_perm.index("синий"):
              continue
          for profession_perm in permutations(professions):
              if profession_perm[0] != "плотник":
                  continue
              if abs(color_perm.index("красный") - profession_perm.index("плотник")) != 1:
                  continue
              if color_perm.index("зеленый") != profession_perm.index("каменщик"):
                  continue
              for animal_perm in permutations(animals):
                  if profession_perm.index("портной") != animal_perm.index("леопард"):
                      continue
                  for food_perm in permutations(foods):
                      if food_perm[2] != "пельмени":
                          continue
                      if color_perm.index("желтый") != food_perm.index("котлета"):
                          continue
                      if profession_perm.index("электрик") != food_perm.index("хлеб"):
                          continue
                      for drink_perm in permutations(drinks):
                          # Check the given conditions
                          if drink_perm.index("коньяк") != animal_perm.index("пума"):
                              continue
                          if color_perm.index("белый") != drink_perm.index("вино"):
                              continue
                          if abs(drink_perm.index("водка") - animal_perm.index("медведь")) != 1:
                              continue
                          if abs(animal_perm.index("тигр") - drink_perm.index("вино")) != 1:
                              continue
                          if drink_perm.index("виски") != food_perm.index("макароны"):
                              continue
                          if profession_perm.index("программист") != drink_perm.index("ром"):
                              continue
                          # If all conditions are met, print the result
                          idx_pizza = food_perm.index("пицца")
                          idx_crocodile = animal_perm.index("крокодил")
                          profession_pizza = profession_perm[idx_pizza]
                          profession_crocodile = profession_perm[idx_crocodile]
                          print(
                              f"Кто ест пиццу: {profession_pizza}, "
                              f"кто держит крокодила: {profession_crocodile}"
                          )


    1. Kergan88
      09.04.2024 15:45

      у чатгпт нет ни каких "вычислительных ресурсов", тем более ограниченных.


  1. o5boleg
    09.04.2024 15:45

    Кто-то из кожаных мешков смог логически решить эту задачу? Я только до пиццы дошёл.


    1. LinkToOS
      09.04.2024 15:45

      Я только до пиццы дошёл.

      Второй дом.
      Ищем "напиток" для второго дома, для которого уже известны "цвет Красный" и "животное Тигр".
      "Коньяк" исключается типом животного (по условиям это Пума).
      "Вино" исключается потому что уже вычислено для первого дома.
      Допустим "Ром", тогда профессия "Программист". Остается "еда". Не Пельмени(дом не центральный), не Пицца(вычислено для первого). Не Котлета(дом не желтый). Не Макароны(они там где Виски). Не Хлеб(его ест Электрик). Значит "Ром" не дает допустимых сочетаний с "едой" для второго дома.
      Допустим "Виски", тогда еда "Макароны". Остается "профессия". Не Плотник(он в первом доме). Не Электрик(он есть Хлеб). Не Программист(он с... пьет Ром). Не Портной(у него Леопард). Не Каменщик(он в Зеленом). "Виски" не дает допустимых сочетаний с "профессией" для второго дома.
      Значит "Водка" единственный вариант для второго дома.
      Теперь для второго дома известны "цвет Красный", "животное Тигр" и "напиток Водка".
      Ищем для него "профессию".
      Не Программист(ему нужен Ром. пират хренов). Не Плотник(он в первом). Не Портной(он живет с Леопардом). Не Каменщик(он в Зеленом)
      Значит единственный вариант для второго дома это "Электрик". А он по условиям ест "Хлеб".