Я был вдохновлен ранее вышедшей статьей автора MikeMSN - "Задача Эйнштейна. ChatGPT, YaGPT2, Gigachat, Mistral Large" и решил провести большой тест наиболее популярных LLM нейросетей. Использовал для этого сайт Chatbot Arena, а также свой компьютер, на котором можно запустить локальные LLM нейронные сети.

Характеристики моего домашнего компьютера, на котором я задавал вопросы локальным нейросетям - 8 ядерный 16 поточный процессор AMD Ryzen 7 1700X и 96 Гб оперативной памяти 4 планками (2 по 32 и 2 по 16).

Задача Эйнштейна звучит так:

Hidden text
  1. На улице стоят пять домов.

  2. Англичанин живёт в красном доме.

  3. У испанца есть собака.

  4. В зелёном доме пьют кофе.

  5. Украинец пьёт чай.

  6. Зелёный дом стоит сразу справа от белого дома.

  7. Тот, кто курит Old Gold, разводит улиток.

  8. В жёлтом доме курят Kool.

  9. В центральном доме пьют молоко.

  10. Норвежец живёт в первом доме.

  11. Сосед того, кто курит Chesterfield, держит лису.

  12. В доме по соседству с тем, в котором держат лошадь, курят Kool.

  13. Тот, кто курит Lucky Strike, пьёт апельсиновый сок.

  14. Японец курит Parliament.

  15. Норвежец живёт рядом с синим домом.

Кто пьёт воду? Кто держит зебру?

Ответ на задачу:

Hidden text

дом

1

2

3

4

5

цвет

жёлтый

синий

красный

белый

зелёный

национальность

норвежец

украинец

англичанин

испанец

японец

напиток

вода

чай

молоко

сок

кофе

сигареты

Kool

Chesterfield

Old Gold

Lucky Strike

Parliament

животное

лиса

лошадь

улитки

собака

зебра

Норвежец пьёт воду, а японец держит зебру.

Как установить и запустить локальную нейросеть на своем компьютере - я писал в моей предыдущей статье "Локальные GPT нейронный сети — устанавливаем на домашнем ПК, запускаем и проверяем на адекватность аналоги ChatGPT".

Miqu-1 с 70 млрд параметров

Считается, что это слитая альфа версия Mistral Medium от французской компании Mistral AI. Преимущество этой нейросети в том, что её можно запустить локально на компьютере. Для этого понадобится ПК минимум с 64 Гб оперативной памяти. Использовал я версию "5_Q_M"

Ответ этой нейросети:

Hidden text

Сначала нам нужно найти все возможные комбинации для каждого из элементов и их связей. После этого мы можем начать исключать невозможные варианты, используя данные условия.

  1. Запишем все возможные варианты для национальностей (A - англичанин, S - испанец, U - украинец, N - норвежец, J - японец). Также запишем возможные варианты для цветов домов (R - красный, G - зелёный, Y - жёлтый, B - белый, Bl - синий), для животных (D - собака, Z - зебра, L - лиса, H - улитки, horse) и для напитков (C - кофе, T - чай, M - молоко, W - вода, OJ - апельсиновый сок).

  2. Норвежец живёт в первом доме (NA1). Это ограничивает возможности для других жителей и домов.

  3. Англичанин живёт в красном доме (AR). Поскольку норвежец уже имеет определённое местоположение, это означает, что англичанин должен жить во втором или третьем доме, поскольку красный дом не может быть первым.

  4. Сосед того, кто курит Chesterfield, держит лису (LN~S). Единственным подходящим местом для человека, курящего Chesterfield, является четвёртый дом, так как его соседом будет норвежец, который не может держать животных.

  5. В центральном доме пьют молоко (M3).

  6. Зелёный дом стоит сразу справа от белого дома (GB or GBl). Но так как норвежец живёт рядом с синим домом (NS или NSl), зелёный дом должен стоять на пятой позиции (GB), а белый – на четвёртой.

  7. Украинец пьёт чай (UT). Тогда он должен жить либо во втором, либо в третьем доме, поскольку он не может жить в первом (норвежец) или в пятом (англичанин).

  8. У испанца есть собака (SD). Испанец также не может жить в первом доме, поэтому он должен жить во втором или третьем. Поскольку украинец пьёт чай и живёт во втором или третьем доме, испанец должен жить во втором доме, так как зелёный дом уже находится на пятой позиции. Итак, UT3 и SD2.

  9. Теперь мы знаем, что зелёный дом находится на пятой позиции, а красный – во втором или третьем. У англичанина нет другого выбора, кроме как жить в третьем доме, поскольку второй дом занят испанцем. Таким образом, AR3.

  10. Норвежец живёт рядом с синим домом (NA1 и NS1 или NBl1). Синий дом должен быть первым, поскольку другие дома уже заняты.

  11. В жёлтом доме курят Kool (YK). Жёлтый дом должен находиться во втором доме, поскольку другие дома уже определены.

  12. Тот, кто курит Old Gold, разводит улиток (HN~S и OG4). Это подтверждает наши предыдущие выводы.

  13. В доме по соседству с тем, в котором держат лошадь, курят Kool (YK и horseN~Y). Это также совпадает с предыдущими выводами.

  14. Японец курит Parliament (JP). Он должен жить в четвёртом доме, так как другие места заняты.

  15. Теперь у нас есть два возможных варианта для того, кто пьёт кофе: либо пятый дом, либо четвёртый. Но поскольку в четвёртом доме живёт тот, кто разводит улиток и курит Chesterfield, а зелёный дом находится на пятой позиции, то человек, который пьёт кофе, должен жить в пятом доме (CG5).

  16. Остаётся определить того, кто пьёт апельсиновый сок. Единственное свободное место – третий дом, поэтому Lucky Strike должен быть связан с ним (OL3 или OLl3). Но так как этот дом уже занят англичанином, который живёт в красном доме, это означает, что Ll3 не подходит. Таким образом, OL3 - это правильный ответ.

Ответы на вопросы:

  • Кто пьёт воду? Норвежец.

  • Кто держит зебру? Сосед англичанина.

Она правильно ответила на вопрос - "Кто пьет воду", но не ответила на вопрос про то, кто держит зебру. Попросим у неё перепроверить её ответ.

Hidden text

Пересмотрев решение, я обнаружил ошибку в предположении, что зелёный дом должен находиться на пятой позиции только из-за факта, что норвежец живёт рядом с синим домом. На самом деле зелёный дом может находиться и на четвёртой позиции, если синий дом будет расположен между первым и вторым домами. В таком случае мы можем прийти к следующим выводам:

  1. Норвежец живёт в первом доме (NA1) и питает улиток (HN1), поскольку его сосед курит Old Gold.

  2. Испанец живёт во втором доме (SD2) и держит собаку.

  3. Англичанин живёт в третьем доме (AR3) и живёт рядом с синим домом (S или Sl).

  4. Украинец живёт в четвёртом доме (UT4), пишет чай и содержит лошадь.

  5. Зелёный дом находится на пятой позиции (GB5), и там пьют кофе.

  6. Японец живёт в четвёртом доме (JP4) и курит Parliament. Таким образом, украинец не может жить там.

  7. Сосед японца, живущий в третьем доме, курит Lucky Strike (OL3). Следовательно, англичанин должен пить апельсиновый сок.

  8. Соседи норвежца живут во втором и третьем домах. Поскольку второй дом занят испанцем, third house must contain the Kool smoker (YK3).

  9. В центральном доме пьют молоко (M2), так как он единственный оставшийся вариант для второго дома.

  10. Теперь остаётся определить того, кто держит зебру и что пьёт норвежец. Согласно условию, в доме по соседству с тем, в котором держат лошадь, курят Kool. Но так как человек, который живёт во втором доме, уже определён, то единственным возможным местом для человека, который держит лошадь, является пятый дом. Таким образом, fifth house contains horse and coffee (CG5 и horse).

  11. Наконец, норвежец должен пить воду (W1), поскольку другие напитки уже назначены другим домам.

Ответы на вопросы:

  • Кто пьёт воду? Норвежец.

  • Кто держит зебру? Желательный ответ был неверным, и правильный ответ – тот, кто живёт в пятом доме.

Ответ на первый вопрос остался тем же, но ответ на второй вопрос половинчатый.

Command R+ со 104 млрд параметров

Command R+ - LLM нейросеть от канадской компании Cohere. Чтобы не устанавливать на ПК, я использовал Chatbot Arena. Но на huggingface.co есть и локальная версия (5_Q_M занимает 74 Гб, надо скачивать 2 файла и объединять их)

Ответ на вопрос:

Hidden text

По описанным подсказкам, невозможно определить, кто пьёт воду и кто держит зебру. В подсказках нет достаточной информации о том, кто пьёт воду, и нет никаких упоминаний о зебре.

Попросил её перепроверить свой ответ:

Hidden text

Извините, но, перепроверив подсказки, я всё равно не нахожу достаточной информации, чтобы определить, кто пьёт воду и кто держит зебру. В подсказках нет явных указаний на эти действия.

В итоге полный провал по обоим ответам.

Command R с 35 млрд параметров

Младшая версия Command R+, также есть локальная версия (25 Гб - 5_Q_M)

Ответ на вопрос:

Hidden text

Вода пьется жителем жёлтого дома, потому что там курят Kool. А зебру держит тот, кто курит Chesterfield, т.е. житель второго дома, поскольку норвежец живет в первом доме, а зелёный стоит справа от белого.

Попросил перепроверить ответ:

Hidden text

Да, мой ответ верен.

Давайте рассмотрим это логически.

Пять домов стоят в ряд, и каждый имеет свой цвет. Мы знаем, что английский дом красный, а зелёный дом стоит справа от белого. Это дает нам следующую последовательность: белый, зелёный, красный, два других дома в любом порядке.

Мы также знаем, что в жёлтом доме курят Kool, а это значит, что жёлтый дом не может стоять в середине или на правом конце, поскольку в центральном доме пьют молоко, а на улице стоит только один красный дом (английский). Следовательно, жёлтое жилье находится справа от красного. Это дает нам две возможные последовательности: белый зелёный красный жёлтый другой дом или белый зелёный красный жёлтый синий.

Далее, мы знаем, что сосед того, кто курит Chesterfield, держит лису. Поскольку зелёный дом стоит справа от белого, а в зелёном доме, по описанию, пьют кофе, то Chesterfield курят в жёлтом доме. Это подтверждает, что жёлтое жилье находится в конце строки, и наша последовательность должна быть белой, зелёной, красной и жёлтой. Если так, то дом, в котором держат лошадь, будет синим, потому что он стоит рядом с жёлтым.

Теперь мы знаем, что тот, кто курит Old Gold, разводит улиток, а в центральном доме пьют молоко. Поскольку жёлтый дом находится справа от центрального, то Old Gold курят в красном доме. Из этого следует, что испанец живет в жёлтом доме, потому что только в нём остаются. Кроме того, житель жёлтого дома пьет воду, поскольку в нём не пьют ни молоко, ни апельсиновый сок (который мы знаем, что пьет кто-то еще).

Остается выяснить, где живет украинец. Мы знаем, что тот, кто курит Lucky Strike, пьет апельсиновый сок, а норвежец живет в первом доме. Но мы также знаем, что норвежец живет рядом с синим домом. Поэтому Lucky Strike курят либо в синем, либо в первом доме. Но если бы они курили в синем доме, то соседом норвежца был бы не первый дом. Следовательно, украинец пьет чай в первом доме.

Наконец, у японца есть сигареты Parliament, а норвежец живет рядом с синим домом. Следовательно, японец живет в синем доме.

Таким образом, окончательная последовательность домов будет выглядеть так: белый, зелёный, красный, жёлтый, синий, а пьет воду житель жёлтого дома - испанец. Кроме того, мы знаем, что держатель лисы живет справа от того, кто курит Chesterfield, то есть справа от жёлтого дома. Поэтому зебру держат в зелёном доме.

В итоге ответа на вопросы так и не последовали, но младшая версия хотя бы попыталась подумать, в отличии от старшей версии.

Yi-Chat с 34 млрд параметров

Нейросеть от китайской компании 01.AI. Есть локальная версия на 25 ГБ (5_Q_M). Давайте посмотрим на что способна китайская разработка.

Ответ на вопрос:

Hidden text

На улице стоят пять домов.
Англичанин живёт в красном доме.
У испанца есть собака.
В зелёном доме пьют кофе.
Украинец пьёт чай.
Зелёный дом стоит сразу справа от белого дома.
Тот, кто курит Old Gold, разводит улиток.
В жёлтом доме курят Kool.
В центральном доме пьют молоко.
Норвежец живёт в первом доме.
Сосед того, кто курит Chesterfield, держит лису.
В доме по соседству с тем, в котором держат лошадь, курят Kool.
Тот, кто курит Lucky Strike, пьёт апельсиновый сок.
Японец курит Parliament.
Норвежец живёт рядом с синим домом.

Кто пьёт воду? - Украинец пьёт воду.
Кто держит зебру? - Сосед того, кто курит Chesterfield, держит зебру.

Оба ответа совершенно не правильны. По её мнению украинец пьет воду, но она же в начале пишет, что украинец пьёт чай.

Попросил перепроверить:

Hidden text

Кто пьёт кофе? - В зелёном доме пьют кофе. Кто пьёт апельсиновый сок? - Тот, кто курит Lucky Strike, пьёт апельсиновый сок. Кто курит Parliament? - Японец курит Parliament.Кто живёт в первом доме? - Норвежец живёт в первом доме. Кто держит лошадь? - В доме по соседству с тем, в котором держат лошадь, курят Kool.Кто держит лису? - Сосед того, кто курит Chesterfield, держит лису. Кто курит Chesterfield? - Сосед того, кто держит лошадь, курит Chesterfield.Кто живёт в красном доме? - Англичанин живёт в красном доме. Кто курит Lucky Strike? - Тот, кто пьёт апельсиновый сок, курит Lucky Strike.Кто пьёт молоко? - В центральном доме пьют молоко. Кто курит Kool? - В жёлтом доме курят Kool. Кто держит собаку? - У испанца есть собака. Кто курит Old Gold? - Тот, кто курит Kool, также пьёт Old Gold.Кто пьёт чай? - Украинец пьёт чай. Кто живёт в синим доме? - Норвежец живёт рядом с синим домом. Кто разводит улиток? - Тот, кто курит Old Gold, разводит улиток. Кто курит Kool? - В жёлтом доме курят Kool. Кто живёт в зелёном доме? - Не указано, кто живёт в зелёном доме.

В итоге внятного ответа она так и не дала.

Claude 3 Haiku

Самая младшая версия Claude 3 от американской компании Anthropic. Её старшая версия Claude 3 Opus обошла даже GPT 4 от OpenAI в рейтинге Chatbot Arena. Посмотрим на что способна Haiku (все 3 версии Claude 3 не имеют вариантов для установки на ПК)

Ответ на вопрос:

Hidden text

Давайте разберёмся с этими загадками по порядку:

  1. Англичанин живёт в красном доме.

  2. У испанца есть собака.

  3. В зелёном доме пьют кофе.

  4. Украинец пьёт чай.

  5. Зелёный дом стоит сразу справа от белого дома.

  6. Тот, кто курит Old Gold, разводит улиток.

  7. В жёлтом доме курят Kool.

  8. В центральном доме пьют молоко.

  9. Норвежец живёт в первом доме.

  10. Сосед того, кто курит Chesterfield, держит лису.

  11. В доме по соседству с тем, в котором держат лошадь, курят Kool.

  12. Тот, кто курит Lucky Strike, пьёт апельсиновый сок.

  13. Японец курит Parliament.

  14. Норвежец живёт рядом с синим домом.

Из этих данных можно сделать следующие выводы:

  • Кто пьёт воду? Нет никакой информации о том, кто пьёт воду.

  • Кто держит зебру? Нет никакой информации о том, кто держит зебру.

Таким образом, на основе имеющихся данных невозможно ответить на эти два вопроса. Информации недостаточно.

Эта нейросеть даже не стала логически думать и сказала, что информации недостаточно.

Claude 3 Opus

Старшая и самая продвинутая модель Claude 3. Она даже потеснила с первого места рейтинга Chatbot Arena известную GPT 4 от OpenAI. Давайте посмотрим, насколько она хороша. Ответ на вопрос:

Hidden text

Давайте решим эту логическую задачу методично, используя данную информацию. Мы будем постепенно определять, кто где живет, что пьет, какие сигареты курит и каких животных держит.

Сначала пронумеруем дома слева направо: 1, 2, 3, 4, 5.

Из условий известно:

  1. Норвежец живёт в первом доме.

  2. Центральный дом (№3) - тот, в котором пьют молоко.

  3. Зелёный дом стоит справа от белого.

  4. Норвежец живёт рядом с синим домом.

Из 1 и 4: Норвежец в доме 1, значит синий дом - №2.
Из 3: Если белый дом №3 (центральный), то зелёный будет №4. Других вариантов нет.

Получаем: дом 1 - норвежец, 2 - синий, 3 - белый (молоко), 4 - зелёный (кофе), 5 - жёлтый (Kool).

  1. Англичанин живёт в красном доме. Это может быть только дом 2 или 3.

  2. Украинец пьёт чай. Он не может жить в домах 3-5, значит живет в 1 или 2.

  3. Японец курит Parliament. Он не норвежец и не украинец, значит живет в 3, 4 или 5 доме.

  4. Сосед того, кто курит Chesterfield, держит лису.

  5. В доме по соседству с тем, в котором держат лошадь, курят Kool. Kool курят в доме 5, значит в 4 держат лошадь.

  6. У испанца есть собака. Он не может жить в 4 и 5 домах.

  7. Тот, кто курит Old Gold, разводит улиток. Он не живет в 4 и 5 домах.

  8. Тот, кто курит Lucky Strike, пьёт апельсиновый сок. Это точно не 4 и 5 дома.

Из 6, 7, 10, 11, 12: В домах 1 и 2 живут украинец и испанец. В доме 3 живет японец или англичанин.

Попробуем вариант: дом 1 - украинец, 2 - испанец. Тогда дом 3 - англичанин и он красный. Дом 2 синий, значит испанец курит Chesterfield и держит лису. Но по условию 10 у испанца собака. Противоречие.

Значит дом 1 - украинец (чай), 2 - англичанин (красный). Дом 3 - японец (Parliament, молоко).

Осталось определить, кто держит зебру и пьет воду. Это точно не жильцы домов 4 и 5.
Украинец пьет чай, японец - молоко. Значит воду пьет англичанин в доме 2.
Зебра не может быть у испанца (у него собака) и японца (он в центре). Значит зебра живет у англичанина или норвежца.

Финальное распределение:
Дом 1: норвежец, зебра или улитки, вода или апельсиновый сок, Chesterfield или Lucky Strike
Дом 2: англичанин, лиса или зебра, вода, Chesterfield или Lucky Strike
Дом 3: японец, молоко, Parliament
Дом 4: лошадь, кофе, Kool
Дом 5: испанец, собака, апельсиновый сок или вода, Old Gold или Chesterfield или Lucky Strike

Чтобы точно определить, кто пьет воду и держит зебру, нужно понять, кто курит Chesterfield.

Испанец не может курить Chesterfield, так как его сосед держит лису, а рядом с испанцем никто не держит лису.

Если предположить, что Chesterfield курит норвежец, то лису должен держать англичанин. Но тогда некому держать зебру. Значит это неверно.

Остается вариант, что Chesterfield курит англичанин. Тогда лису держит норвежец, а зебру держать уже некому. Значит зебру держит японец.

Окончательное распределение:
Дом 1 (желтый): норвежец, лиса, вода, Kool
Дом 2 (синий): англичанин, молоко, Chesterfield
Дом 3 (красный): японец, зебра, молоко, Parliament
Дом 4 (зеленый): лошадь, кофе, Lucky Strike
Дом 5 (белый): испанец, собака, апельсиновый сок, Old Gold

Ответ: Воду пьет норвежец. Зебру держит японец.

И оба ответа правильны! Это просто поражает и говорит о том, что у Claude 3 Opus есть действительно логическое мышление!

LLama 2 с 70 млрд параметров

Бум локальных нейросетей, которые можно запустить на домашнем компьютере начался именно с этой нейронной сети, которую сперва слили энтузиасты, а потом её разработчик - американская компания (имя которой нельзя произносить вслух) официально выпустила в открытый доступ по некоммерческой лицензии. Давайте посмотрим на что она способна:

Hidden text

Из данной информации невозможно определить, кто пьёт воду и кто держит зебру, так как нет достаточных данных для ответа на эти вопросы. Однако, можно сделать некоторые выводы:

  1. Тот, кто курит Old Gold, разводит улиток, поэтому он не пьёт воду.

  2. Тот, кто курит Kool, может пьет воду, но это не указано в данных.

  3. Тот, кто курит Chesterfield, держит лису, поэтому он не держит зебру.

  4. Тот, кто курит Lucky Strike, пьёт апельсиновый сок, поэтому он не пьёт воду.

  5. Японец курит Parliament, но это не связано с пьянкой воды или держиncem зебры.

Таким образом, из данной информации невозможно определить, кто пьёт воду и кто держит зебру. Если у вас есть дополнительная информация, пожалуйста, уточните, и я постараюсь помочь вам дальше.

На оба вопроса она не ответила, что говорит, что с логическим мышлением у неё не очень.

Deluxe Chat v1.3

Малоизвестная LLM нейронная сеть. О которой я не смог найти информацию, но она есть в Chatbot Arena. Её ответ:

Hidden text

Это известная логическая задача, называемая "Головоломка Эйнштейна" или "Загадка Зебры". Давайте систематически проанализируем данные и найдем ответы на вопросы.

Из условий мы знаем:

  1. Норвежец живет в первом доме.

  2. Норвежец живет рядом с синим домом. Значит, второй дом - синий.

  3. Англичанин живет в красном доме.

  4. Зеленый дом стоит справа от белого дома.

  5. В центральном доме (третьем) пьют молоко.

Теперь определим, кто что пьет и курит:

  • Украинец пьет чай.

  • Японец курит Parliament.

  • В желтом доме курят Kool.

  • Тот, кто курит Lucky Strike, пьет апельсиновый сок.

  • В зеленом доме пьют кофе.

  • Тот, кто курит Old Gold, разводит улиток.

  • Сосед того, кто курит Chesterfield, держит лису.

  • В доме по соседству с тем, в котором держат лошадь, курят Kool.

Расставим дома по порядку с 1 по 5:

  1. Желтый, 2. Синий, 3. Красный, 4. Зеленый, 5. Белый

Кто в каком доме живет:

  1. Норвежец, 2. Украинец, 3. Англичанин, 4. Испанец, 5. Японец

Кто что пьет:

  1. Вода, 2. Чай, 3. Молоко, 4. Кофе, 5. Апельсиновый сок

Кто что курит:

  1. Kool, 2. Chesterfield, 3. Old Gold, 4. Lucky Strike, 5. Parliament

Кто каких животных держит:

  1. Лиса, 2. Лошадь, 3. Улитки, 4. Зебра, 5. Собака

Таким образом:

  • Испанец держит зебру.

  • Норвежец пьет воду.

По её ответу не видно что она рассуждала. И я предполагаю, что она просто знала ответ.

Qwen 1.5 с 14 млрд параметров.

Китайская LLM нейросеть от компании Alibaba Cloud. Её ответ удручает:

Hidden text

Извините, но из данного текста невозможно выяснить, кто именно пьет воду или держит зебру, так как информация о этих аспектах не указана.

Qwen 1.5 с 72 млрд параметров.

Та же Qwen 1.5, только с большим количеством параметров. Её ответ:

Hidden text

Решение задачи на основе данных:

  1. Норвежец живёт в первом доме.

  2. Зелёный дом стоит сразу справа от белого дома.

  3. Центральный дом - это третий дом с левой стороны.

  4. В центральном доме пьют молоко.

  5. Англичанин живёт в красном доме.

  6. Украинец пьёт чай.

  7. В жёлтом доме курят Kool.

  8. Тот, кто курит Old Gold, разводит улиток.

  9. Сосед того, кто курит Chesterfield, держит лису.

  10. В доме по соседству с тем, в котором держат лошадь, курят Kool.

  11. Тот, кто курит Lucky Strike, пьёт апельсиновый сок.

  12. Японец курит Parliament.

  13. Норвежец живёт рядом с синим домом.

  14. У испанца есть собака.

Из этих данных можно составить следующую схему:

1 - Норвежец (синий дом)
2 - Красный дом - Англичанин
3 - Молоко
4 - Зелёный дом - Курят Kool, справа от белого
5 - Белый дом

Теперь рассмотрим курящих и их соседей:

  • Курят Kool - Жёлтый дом и дом рядом с лошадью

  • Курят Lucky Strike - апельсиновый сок

  • Курят Old Gold - улитки

  • Курят Chesterfield - лиса

  • Курят Parliament - Японец

Соседом Курящих Kool и держат лошадь будет житель жёлтого дома, значит, кто-то из них держит лошадь. Но мы уже знаем, что в жёлтом доме курят Kool, поэтому дом с лошадью находится рядом с жёлтым, а значит, это четвёртый дом.

Таким образом, в первом доме (Норвежец) - синий, во втором доме - красный (Англичанин), в третьем - молоко, в четвёртом - Курят Kool и держат лошадь, в пятом - белый.

Теперь оставшиеся факты:

  • Украинец пьёт чай. Он не может жить в доме с молоком (третий дом), поэтому он живёт либо в первом, либо в пятом доме. Но Норвежец живёт рядом с синим, поэтому Украина не может быть в первом доме. Таким образом, Украинец живёт в пятом доме, и в первом доме - чай.

  • Кто держит зебру?

Сосед Курящих Kool (жёлтый дом) держит лошадь, а сосед Chesterfield держит лису. Так как Chesterfield не может жить в доме с лисой (нельзя быть соседом самому себе), он должен быть либо в первом, либо в пятом доме. Но Украина живёт в пятом доме, поэтому Chesterfield живёт в первом доме. Таким образом, второй дом - Chesterfield и лиса.

Теперь мы можем заключить, что кто-то в четвёртом доме (Курят Kool и держат лошадь) держит зебру, так как у испанца есть собака, а в других домах животные уже указаны.

Таким образом, ответы:

  • Кто пьёт воду? -没有人明确说喝水。

  • Кто держит зебру? - Четвёртый дом - Курят Kool, держат лошадь и зебру.

В этот раз она попробовала порассуждать в отличии от младшей версии, но ответы также не даны. Плюс видны вставки с китайскими иероглифами. Давайте попросим её перепроверить её же решение:

Hidden text

Прошу прощения за неточности в предыдущем ответе. Снова рассмотрим данные:

  1. Норвежец живёт в первом доме.

  2. Зелёный дом стоит сразу справа от белого дома.

  3. Центральный дом - это третий дом с левой стороны.

  4. В центральном доме пьют молоко.

  5. Англичанин живёт в красном доме.

  6. Украинец пьёт чай.

  7. В жёлтом доме курят Kool.

  8. Тот, кто курит Old Gold, разводит улиток.

  9. Сосед того, кто курит Chesterfield, держит лису.

  10. В доме по соседству с тем, в котором держат лошадь, курят Kool.

  11. Тот, кто курит Lucky Strike, пьёт апельсиновый сок.

  12. Японец курит Parliament.

  13. Норвежец живёт рядом с синим домом.

  14. У испанца есть собака.

Из этого мы можем составить следующую схему:

1 - Норвежец (синий дом)
2 - Красный дом - Англичанин
3 - Молоко
4 - Зелёный дом - Курят Kool, справа от белого
5 - Белый дом

Теперь рассмотрим курящих и их соседей:

  • Курят Kool - Жёлтый дом и дом рядом с лошадью

  • Курят Lucky Strike - апельсиновый сок

  • Курят Old Gold - улитки

  • Курят Chesterfield - лиса

  • Курят Parliament - Японец

Соседом Курящих Kool и держат лошадь будет житель жёлтого дома, значит, кто-то из них держит лошадь.

Теперь рассмотрим другие данные:

  • Чай не может быть в доме с молоком (третий дом), поэтому он либо в первом, либо в пятом доме.

  • Украинец - чай, значит, он в пятом доме.

  • Тот, кто курит Old Gold, разводит улиток. Соседом Old Gold может быть только тот, кто держит лису (Chesterfield), так как это сосед лошади (дом Kool). Таким образом, Chesterfield - в четвёртом доме, и он держит лису.

  • Следовательно, Old Gold - в первом доме, Норвежец - синий дом, и он держит улиток.

  • Лиса - четвёртый дом.

  • В доме по соседству с тем, в котором держат лошадь (четвёртый дом), курят Kool, значит, в третьем доме курят Kool.

  • Тот, кто курит Lucky Strike, пьёт апельсиновый сок. Следовательно, в пятом доме - апельсиновый сок и Курят Kool.

  • Японец курит Parliament, значит, он в доме, не указанным выше, и это второй дом.

Теперь все дома заняты:

1 - Old Gold, улитки, Норвежец (синий)
2 - Японец (Parliament), синий
3 - Курят Kool
4 - Chesterfield, лиса
5 - Курят Kool, апельсиновый сок, Украинец

Теперь ответы:

  • Кто пьёт воду? - Они не указаны в задании, поэтому мы не знаем, кто пьёт воду.

  • Кто держит зебру? - Зебра не упоминается в задании, поэтому никто не держит зебру.

Извините за предыдущую ошибку, но теперь мы можем увидеть, что в задании не указаны ульи, зебры или вода, поэтому мы не можем ответить на эти вопросы.

Кроме того, что она так и не ответила на заданные вопросы, так взяла откуда-то еще и ульи :)

Starling Lm с 7 млрд параметров

Малоизвестная нейронная сеть. Её ответ:

Hidden text

Итак, давайте разберемся, кто пьёт воду и кто держит зебру.

  1. Украинец пьёт чай.

  2. В центральном доме пьют молоко.

  3. Англичанин живёт в красном доме, но не указывается, что он пьёт воду или нет.

  4. В зелёном доме пьют кофе, но не указывается, что пьёт воду или нет.

  5. Норвежец живёт в первом доме, но не указывается, что пьёт воду или нет.

  6. В жёлтом доме курят Kool, но не указывается, что пьют воду или нет.

Также не указывается, кто держит зебру.

Однако, если мы попробуем сделать несколько умеренных предположений, то можно предположить, что:

  • Норвежец может пьёт воду, поскольку не указывается, что он пьёт что-то другое.

  • Кто живёт в зелёном доме, может пьют воду, поскольку не указывается, что пьют что-то другое.

О зебре тоже нет никаких упоминаний, так что есть несколько предположений о её владельце:

  • Сосед того, кто курит Chesterfield, держит лису. Может ли этот человек держать зебру вместо лисы? Возможно, но не вполне очевидно.

  • В доме по соседству с тем, в котором держат лошадь, курят Kool. Может ли этот человек держать зебру вместо лошади? Возможно, но не вполне очевидно.

Таким образом, без дополнительной информации, мы не можем точно сказать, кто пьёт воду и кто держит зебру.

Она попыталась порассуждать, но ответ так и не был получен.

Mixtral 8*7B Instruct v0.1

Известная и одна из лучших LLM нейронных сетей от французской компании Mistral AI. Давайте посмотрим насколько она хороша:

Hidden text

Норвежец живёт в первом доме, и он пьёт воду, потому что в вопросе сказано, что норвежец живёт рядом с синим домом, а синий дом - не первый. Кроме того, в центральном доме пьют молоко, и все дома уже заняты, так что норвежцу не остается ничего, кроме как пить воду.

Тот, кто держит зебру, курит Chesterfield, потому что его сосед держит лису. Из этого следует, что этот человек не живёт в первом доме (так как там живёт норвежец), втором (там живёт англичанин), третьем (там пьют кофе), четвёртом (там живёт украинец) или пятом (там живёт японец). Зелёный дом стоит сразу справа от белого дома, поэтому зелёный дом - не последний. Следовательно, последним домом курят Parliament, и этот дом принадлежит японцу. Таким образом, тот, кто держит зебру, живёт в доме перед последним, то есть в пятом доме.

Ответ: Норвежец живёт рядом с синим домом и пьёт воду, а тот, кто держит зебру, курит Chesterfield и живёт в пятом доме.

По первому вопросу она ответила правильно, что норвежец пьет воду. Но не правильно ответила, кто держит зебру. Давайте попросим у неё перепроверить её решение:

Hidden text

Разберём по порядку:

  1. Норвежец живёт в первом доме. Это сказано непосредственно в задаче.

  2. В первом доме живёт норвежец, а значит, он не курит Parliament, потому что японец курит Parliament.

  3. В центральном доме пьют молоко, и там не живёт норвежец, потому что он живёт в первом доме.

  4. В доме по соседству с тем, в котором держат лошадь, курят Kool. Но никаких упоминаний о лошади ещё не было, поэтому мы пока не можем использовать эту информацию.

  5. Норвежец живёт рядом с синим домом. Синий дом не может быть первым, потому что там живёт норвежец, а значит, он может быть только вторым, четвёртым или пятым.

  6. Зелёный дом стоит сразу справа от белого дома. Зелёный дом также не может быть первым, потому что там живёт норвежец, а значит, он может быть только вторым, третьим, четвёртым или пятым.

  7. В жёлтом доме курят Kool. Единственный жёлтый дом - это третий дом, потому что зелёный дом стоит сразу справа от белого дома.

  8. У испанца есть собака, и он не может жить в первом доме, потому что там живёт норвежец. Следовательно, испанец живёт во втором доме.

  9. В зелёном доме пьют кофе, и он не может быть первым, потому что там живёт норвежец, и не может быть вторым, потому что там живёт испанец с собакой. Зелёный дом также не может быть пятым, потому что там живёт японец. Зелёный дом - это четвёртый дом.

  10. В первом доме живёт норвежец, во втором доме живёт испанец с собакой, в третьем доме курят Kool, в четвёртом доме пьют кофе, в пятом доме живёт японец, курящий Parliament.

  11. В первом доме живёт норвежец, который пьёт воду, потому что в вопросе сказано, что в центральном доме пьют молоко.

  12. Второй дом принадлежит испанцу с собакой. Улитки живут в первом доме, потому что норвежец курит не Old Gold.

  13. Сосед того, кто курит Chesterfield, держит лису. Честерfield курит тот, кто живёт в пятом доме рядом с синим домом, который не может быть первым или вторым, потому что там живут норвежец и испанец. Следовательно, синий дом - это четвёртый дом, а пятый дом принадлежит тому, кто курит Chesterfield и держит зебру.

Ответ: Норвежец живёт рядом с синим домом и пьёт воду, а тот, кто держит зебру, курит Chesterfield и живёт в пятом доме.

В итоге ей можно засчитать ответ только на первый вопрос.

OpenChat 3.5

Это не знаменитая ChatGPT 3.5, а всего лишь разновидность Mixtral 7b (7 млрд параметров). Итак как она ответила:

Hidden text

Сведения о жителях домов неполны, но можно попытаться предположить некоторые факты.

  1. Англичанин живет в красном доме.

  2. Испанцем является житель зелёного дома, у которого есть собака.

  3. Украинец живет в доме с иным цветом, чем зелёный, так как он пьёт чай.

  4. Житель жёлтого дома курит Kool.

  5. Норвежец живет в первом доме.

  6. Сосед, кто курит Chesterfield, держит лису.

  7. В доме, рядом с которым держат лошадь, курят Kool.

  8. Тот, кто курит Lucky Strike, пьёт апельсиновый сок.

  9. Японец курит Parliament.

  10. Норвежец живет рядом с синим домом.

Остались без ответа на вопросы: Кто пьёт воду? Кто держит зебру?

Ответ так и не был получен.

GPT 4

И вот она знаменитая GPT 4 от компании OpenAI. Давайте посмотрим как у неё с логикой:

Hidden text

Эта головоломка известна как "Загадка Эйнштейна" или "Загадка о пяти домах". Чтобы ее решить, нужно использовать логическое мышление и метод исключения. Пройдемся по всем утверждениям шаг за шагом и попробуем определить, кто пьет воду и кто держит зебру.

  1. Есть пять разных цветов домов, пять разных национальностей, пять напитков, пять видов сигарет и пять разных животных.

  2. Англичанин живет в красном доме.

  3. У испанца есть собака.

  4. В зеленом доме пьют кофе.

  5. Украинец пьет чай.

  6. Зеленый дом стоит сразу справа от белого дома.

  7. Тот, кто курит Old Gold, разводит улиток.

  8. В желтом доме курят Kool.

  9. В центральном (третьем) доме пьют молоко.

  10. Норвежец живет в первом доме.

  11. Сосед того, кто курит Chesterfield, держит лису.

  12. В доме по соседству с тем, в котором держат лошадь, курят Kool.

  13. Тот, кто курит Lucky Strike, пьет апельсиновый сок.

  14. Японец курит Parliament.

  15. Норвежец живет рядом с синим домом.

Теперь давайте попробуем расставить все элементы, используя данные утверждения:

  • Норвежец живет в первом доме (10), следовательно, первый дом – желтый, поскольку в нем курят Kool (8).

  • Третий дом – центральный, в нем пьют молоко (9).

  • Зеленый дом стоит сразу справа от белого дома (6), значит, зеленый – четвертый, а белый – третий.

  • Англичанин живет в красном доме (2), зеленый и желтый дома уже заняты, значит, красный дом – пятый.

  • Украинец пьет чай (5), а третий дом занят молоком, следовательно, украинец живет во втором доме, который остается синим (15).

  • Испанец живет не в первом и не в третьем доме (там живут норвежец и там пьют молоко), не в четвертом (там кофе) и не в пятом (там англичанин), следовательно, испанец – второй дом, и у него есть собака (3).

  • В зеленом доме пьют кофе (4), то есть в четвертом доме.

  • Тот, кто курит Old Gold, разводит улиток (7), а в желтом доме курят Kool (8), значит, улитки – в третьем или пятом доме. Поскольку в третьем доме пьют молоко, улитки – в пятом.

  • Японец курит Parliament (14), он не живет в первом (там норвежец), не во втором (там испанец), не в третьем (там молоко и улитки) и не в четвертом (там кофе), следовательно, японец живет в пятом доме.

  • Сосед того, кто курит Chesterfield, держит лису (11), значит, Chesterfield курят либо во втором, либо в четвертом доме, поскольку только они соседствуют с первым, где живет норвежец. Так как в жёлтом (первом) доме курят Kool (8) и в зелёном (четвертом) доме пьют кофе (4), то Chesterfield курят во втором доме, и следовательно там живет лиса.

  • В доме по соседству с тем, в котором держат лошадь, курят Kool (12), следовательно, лошадь находится либо в первом доме, либо в третьем. Так как в первом доме курят Kool, лошадь находится во втором доме.

  • Тот, кто курит Old Gold, разводит улиток (7), и мы уже знаем, что это не во втором доме (там Chesterfield), не в первом (там Kool), не в пятом (там Parliament), значит, это третий дом.

  • Тот, кто курит Lucky Strike, пьет апельсиновый сок (13), и у нас остался только один дом без напитка — второй дом, следовательно, там пьют апельсиновый сок и курят Lucky Strike.

  • Теперь мы знаем, что в пятом доме живет японец, который курит Parliament, в четвертом доме пьют кофе и курят неизвестные сигареты, в третьем доме пьют молоко и курят Old Gold, во втором доме пьют апельсиновый сок и курят Lucky Strike, а в первом доме курят Kool.

  • Остается только определить, кто пьет воду и кто держит зебру. Мы знаем, что воду пьют не во втором (там апельсиновый сок), не в третьем (там молоко), не в четвертом (там кофе) и не в пятом (там должен быть еще один напиток). Следовательно, вода пьется в первом доме, где живет норвежец.

Теперь осталось только определить, где живет зебра. Поскольку у нас остался только один дом без животного и одно не назначенное животное (зебра), зебра находится в пятом доме.

Итак, норвежец пьет воду, а зебра находится у японца в пятом доме.

По обоим вопросам она ответила правильно, что говорит о том, что с логическим мышлением у неё действительно всё хорошо.

Итоговый результат:

Прекрасно справилась с задачей с первой попытки Claude 3 Opus, что говорит о том, что не зря она потеснила GPT4 с вершины лидеров. Сама GPT 4 также оказалась хороша и правильно ответила на оба вопроса. На сколько же будет умна GPT 5, которая должна выйти летом 2024 года?

Также оказались хороши Miqu и Mixtral 8*7b, которые правильно ответили на первый вопрос. Однако Miqu немного лучше, так как со вторым вопросом она почти справилась.

Остальные проверенные LLM нейронные сети не показали хорошее логическое мышление

Комментарии (5)


  1. Question_man
    07.04.2024 14:18
    +2

    Какова вероятность того, что Клод и ГПТ 4 уже видели решение в обучающей выборке? ГПТ 3.5 могла провалиться из-за кратно меньшего количества весов (по-моему на порядок), чем у старшей модели, а значит она не смогла оверфитнуть готовое решение.


    1. kraamis
      07.04.2024 14:18

      Кто сказал переобучение? Никто? Наверное музыкой навеяло.


  1. pilot114
    07.04.2024 14:18

    Мне кажется, для большей точности стоило параметры задачи подкрутить и хотябы пару логических условий переформулировать. А ещё отдельно - сделать её логически нерешаемой и посмотреть на реакцию. Уж больно известная задачка.


  1. MzMz
    07.04.2024 14:18

    у меня что не верифицируется, claude сдался, а chatgpt 4 ответил только на один вопрос:


  1. excoder
    07.04.2024 14:18

    Да, думаю стоит синтезировать аналогичную, но совсем другую задачу, с другим количеством, ответами, и типом объектов, типа грузы и склады.