Как часто сейчас в ИТ сообществе можно услышать про невероятные успехи LLM моделей? ИИ написал диссертацию за 30 минут, ИИ пишет программы на уровне middle разработчика, ИИ диагностирует болезнь с точностью 99.99999% и много много других впечатляющих заголовков пестрят на сотнях сайтов. И это не говоря о том, что создатели таких ИИ моделей заявляют, что через 2-3 года ИИ станет умнее человека чуть ли не в каждой сфере жизни
А так ли это? Давайте поищем парочку не совсем хитрых, но интересных задач, с которыми может справиться даже ребенок (немного подумав, конечно), но не может справиться современный ИИ.
Все тесты будут проводиться на моделях, которые обучены “размышлять” (умеют в Chain-of-Thoughts - цепочки рассуждений). А именно в качестве испытуемых будет: GPT o1 (использовал телеграм ботов, так как так легче и быстрее получить доступ к модели), DeepSeek R1 (недавно выпущена, но показывает хорошие резулататы), QwenLM (модель вышла не так давно, но тоже достойно себя показывает судя по тестам)
Задача 1 (оригинал)
Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек?
Модель 1: DeepSeek R1 ✅
Ответ модели DeepSeek R1
Всего шло 3 человека. Это муж, его жена (которая также является сестрой) и брат жены (шурин). Здесь:
Муж и жена — супружеская пара.
Брат (шурин) и сестра (жена) — родственные связи.
Шурин (брат жены) и зять (муж жены) — зятем для шурина является муж, так как он женат на его сестре.
Таким образом, все три роли покрываются тремя людьми: муж, жена и её брат.

Модель 2: QwenLM ❌
Ответ модели QwenLM
Таким образом, пять человек:
Муж
Жена
Брат жены (шурин)
Сестра жены
Зять (муж сестры жены)
Это seems logical and consistent.
Так что ответ должен быть пять человек.
Но давайте проверим еще раз.
Если зять - это муж дочери жены, тогда нужно учитывать дочь жены.
Но в задаче не упоминается дочь жены, поэтому возможно, что зять - это муж сестры жены.
Тогда пять человек.
Альтернативно, если зять - это муж сестры мужа, тогда это another person.
Но это becomes too complicated.
Думаю, что пять человек - это correct answer.
Final Answer 5

Модель 3: GPT o1 ✅
Ответ модели GPT o1
Таким образом, все роли выполняются тремя людьми:
1. Человек 1 — Муж и зять.
2. Человек 2 — Жена и сестра.
3. Человек 3 — Брат и шурин.
Ответ: 3 человека.
---
Пояснение:
- Муж с женой — это Человек 1 и Человек 2.
- Брат с сестрой — это Человек 3 (брат) и Человек 2 (сестра).
- Шурин с зятем — это Человек 3 (шурин для Человека 1) и Человек 1 (зять для Человека 3).
Таким образом, все роли выполняются тремя людьми, без необходимости вводить дополнительных участников.

В целом, результаты DeepSeek R1 и GPT o1 хорошие, они смогли справиться с такой простой задачкой. Однако QwenLM почему-то подкачала, хотя в интернете можно найти бенчмарки этой модели, где она себя показывала очень даже достойно. Что еще забавно - это то что модели зачастую не дают ответ на русском, а смешивают языки: английский, русский, китайский (даже в моментах, когда просишь объяснить на русском)
Задача 1 (меняем немного условие)
А теперь давайте заменим “шурин” и “зять” на “невестку” и “золовку”. Для человека не трудно понять, что и первая задача и вторая абсолютно идентичны по структуре, в них лишь меняются немного роли людей в семье и всё
Шел муж с женой, брат с сестрой да невестка с золовкой. Сколько всего человек?
Модель 1: DeepSeek R1 ❌
Ответ модели DeepSeek R1
Ответ: Всего 4 человека.
Объяснение:
Муж (М) и жена (Ж) — супружеская пара.
Брат жены (БЖ) и сестра мужа (З) — ещё одна пара, которые также могут быть мужем и женой.
Золовка — это сестра мужа (З), а невестка — жена брата жены (Н). Если брат жены (БЖ) женат на сестре мужа (З), то З одновременно является и золовкой (сестрой мужа), и невесткой (женой брата жены).
Таким образом, участники:
Муж (М),
Жена (Ж),
Брат жены (БЖ),
Сестра мужа (З).
Пары:
Муж и жена.
Брат жены и сестра мужа (БЖ и З).
Золовка (З) и невестка (З, так как она жена брата жены).
Хотя золовка и невестка формально одна и та же женщина, в загадке учитываются роли, а не отдельные люди. Итог: 4 человека.

Модель 2: QwenLM ❌
Ответ модели QwenLM
Альтернативно, если брат В является также сыном А, тогда золовка — жена В, Д, и невестка — также жена В, Д.
Тогда золовка и невестка — одно и то же person, Д.
Так что, people: А, Б, В, Г, Д.
Пять people.
Это sounds more likely.
Так что, ответ — пять.
Final Answer 5

Модель 3: GPT o1 ❌
Ответ модели GPT o1
В этом выражении можно выделить 5 человек:
Муж
Жена
Брат
Сестра
Невестка
Золовка
Невестка – это жена брата, а золовка – это сестра мужа. По сути, это всё один и тот же круг людей, и имеется в виду, что:
Муж и жена – это одна пара.
Брат и сестра – это другая пара.
Невестка (жена брата) и золовка (сестра мужа) относятся к тем же самым людям.
Таким образом, в данной задаче всего 4 уникальных человека: муж, жена, брат и сестра.

В интернете можно найти первую интерпретацию задачи, где сказано именно про шурина и зятя, поэтому легко сделать вывод, что ИИ модели просто выучили первую задачу, а вот когда им попадаются новые понятия, они не могут выстроить ответ, так как нигде раньше ничего подобного не видели, а сами они не способны понять, кто к кому и как относится в родственных связях. Очень жаль, что модели, которые решают очень сложные математические задачи и которые способны писать код на уровне новичка-программиста, допускают ошибки и не могут понять таких простых вещей
Задача 2 (оригинал)
В двух кошельках лежат 4 монеты, причём в одном кошельке монет вдвое больше, чем в другом. Как такое возможно?
Модель 1: DeepSeek R1 ✅
Ответ модели DeepSeek R1
Один кошелёк вложен в другой. Во внутреннем кошельке лежат 2 монеты, а внешний кошелёк содержит эти 2 монеты плюс ещё 2 своих. Таким образом, во внешнем кошельке оказывается 4 монеты, что вдвое больше, чем во внутреннем (2 монеты). Общее количество монет — 4, так как монеты внутреннего кошелька уже учтены в подсчёте внешнего.
Ответ: Один кошелёк вложен в другой. Во внешнем кошельке 4 монеты (включая 2 монеты из внутреннего кошелька), а во внутреннем — 2 монеты.

Модель 2: QwenLM ❌
Ответ модели QwenLM
Может быть, нужно принять, что в одном кошельке 1 монета, а в другом 3 монеты, и сказать, что 3 монеты втрое больше 1 монеты, что больше, чем вдвое.
Но это не точно соответствует условию.
Видимо, задача не имеет решения в целых числах, и ответ состоит в том, что такое распределение невозможно.
Может быть, это задача на то, чтобы понять, что такое распределение невозможно в целых числах.
Так что ответ: такое распределение невозможно.
Final Answer Такое распределение невозможно.

Модель 3: GPT o1 ❌
А вот от кого, так от GPT o1 меньше всего ожидал неверного ответа, так как эта модель была первой и остается одной из лидирующих. Еще и ответ дала на английском языке, хотя просил писал на русском
Ответ модели GPT o1
The solution lies in understanding the way comparative expressions are sometimes used. In the problem, the phrase "вдвое больше, чем в другом" can be interpreted in two ways:
1. Twice as many: This would imply that one purse has double the number of coins in the other. Mathematically, if one purse has *x* coins, the other has *2x* coins. However, with a total of 4 coins, this doesn't yield integer solutions because it leads to fractions:
- Let *x* be the number of coins in the smaller purse.
- Then, the larger purse has *2x* coins.
- Total coins: *x + 2x = 3x = 4* ⇒ *x = 4/3*, which is not an integer.
2. Twice more than: This can be interpreted to mean that one purse has two times more coins than the other, which is equivalent to three times as many coins. Mathematically, this means one purse has *x* coins, and the other has *x + 2x = 3x* coins.
- Let *x* be the number of coins in the smaller purse.
- The larger purse has *3x* coins.
- Total coins: *x + 3x = 4x = 4* ⇒ *x = 1*, so the smaller purse has 1 coin, and the larger purse has 3 coins.
Therefore, one purse contains 3 coins, and the other contains 1 coin. The larger purse has "twice more coins" than the smaller one because 3 is two times more than 1 (since 3 = 1 + 2×1).
Answer: Because one purse has 3 coins and the other has 1—for a total of 4—and 3 coins are twice more than 1 coin.

Задача уже вызывает сложности у некоторых моделей. Неожиданно для меня лично модель GPT o1 ответила неверно, причем её ответ оказался очень сильно нелогичным. Даже модель QwenLM (на которую я делал меньше всего ставку) решила, что так распределить монеты нельзя (это хотя бы не выглядит абсурдно)
Но давайте усложним задачу буквально 2 незначительными пунктами:
укажем, что у нас уже не кошельки, а коробки;
скажем LLM информацию, что одна коробка в 3 раза больше другой
В целом для человека ничего не поменялось: есть емкость с монетами и одна находится внутри другой, а размеры их так вообще роли не играют
Задача 2 (меняем немного условие)
В двух коробках лежат 4 монеты, причём в одной коробке монет вдвое больше, чем в другой. А еще одна коробка в 3 раза больше другой. Как такое возможно?
Модель 1: DeepSeek R1 ❌
Ответ модели DeepSeek R1
Это возможно, если есть три коробки:
В первой коробке 1 монета.
Во второй коробке 2 монеты (вдвое больше первой).
В третьей коробке 3 монеты (в три раза больше первой).
При этом в двух коробках (первой и третьей) суммарно лежат 1+3=4 монеты. Таким образом, выполняются оба условия:
Вторая коробка содержит вдвое больше монет, чем первая.
Третья коробка содержит в три раза больше монет, чем первая.
Итог:
Коробка A: 1 монета.
Коробка B: 2 монеты (A × 2)
Коробка C: 3 монеты (A × 3)
В коробках A и C вместе — 4 монеты.

Мало того что размышление у модели заняло почти 12 страниц в ворде (14 шрифтом Arial), так еще и откуда-то появилась 3 коробка, которой в условии не было. Модель повела себя странно, учитывая, что на прошлую задачу она потратила буквально 1 страницу размышлений
Модель 2: QwenLM ❌
Ответ модели QwenLM
Поэтому, похоже, что задача не имеет решения с целыми числами.
Может быть, задача задумана с дробными значениями, и ответ должен быть в дробных монетах.
Но это необычно.
Или может быть, что задача имеет решение только в дробных значениях, и это故意的, чтобы показать, что иногда математические модели не соответствуют реальности.
В любом случае, основываясь на вышеизложенных рассуждениях, можно заключить, что задача не имеет решения с целыми значениями монет, и любое решение будет содержать дробные значения.
Итоговое решение Задача не имеет решения с целыми значениями монет.

Модель 3: GPT o1 ❌
Ответ модели GPT o1
В одной коробке лежит 1 монета, а в другой — 3 монеты (в сумме получается 4 монеты). Таким образом:
- В одной коробке монет вдвое больше, чем в другой, если понимать это как "на две монеты больше" (3 монеты против 1 монеты).
- Коробка с 3 монетами в 3 раза больше коробки с 1 монетой по размеру.
Поэтому такое распределение монет и размеров коробок возможно.

Заключение
Почему так происходит? LLM не способны мыслить конкретными объектами, они не способным воспринимать объекты с их свойствами: размерами, объемами, массами, и уж тем более не способны понимать и выстраивать внутри отношения одних объектов с другими
Для человека легко понять, что монеты зачастую бывают маленькие и легко могут поместиться в коробку, а одну коробку в другую вставить легче простого, если сказано, что одна в 3 раза больше другой - но всё это не свойственно для LLM
И что же дальше? А дальше есть 2 пути развития решения подобных проблем:
обучение LLM на еще большем объеме данных, которые будут покрывать ВСЕ возможные варианты интерпретаций разных задач - но для этого у человечества просто не хватит ни времени, ни ресурсов;
уход от парадигмы LLM и нейросетей в другие парадигмы, где мир для “ИИ” будет состоять из объектов и взаимосвязей, а не обучающих токенов
Комментарии (155)
gfiopl8
27.01.2025 06:42Загадки это ерунда, на них все сыпятся. И люди в первую очередь.
Ллм же способны на большее, на невероятную тупизну. Вот например типичный диалог с топовой моделью с арены, gemini thinking. И это не только она так тупит, Клод, гпт итп так же примерно отвечают.
Сколько букв о в слове молоко
Три.
А если прочитать через а
Получится "малака".
Нет
Тогда получится "аааааа".
Малако
Извините, был неправ. При чтении "молоко" через "а" получается "малако".
И сколько там букв о
В слове "малако" две буквы "о".dssm
27.01.2025 06:42В YouTube есть видеоролик "Сколько букв Н в слове БАНАН" от одного известного науч-поппера. Там как раз разбирается, что для ИИ (ChatGPT, например) каждый токен - это какой-то объект или слово. ИИ знает, что существуют буквы и что слова состоят из букв, но не может связать это с токенами
gfiopl8
27.01.2025 06:42Думающий ИИ записывает это слово по буквам через запятую или в столбик, это видно в его мыслях, буквы в этом случае становятся отдельными токенами, и всё равно так же примерно тупит. И это не только буквы но и смыслы, и цифры, и бг знает что еще.
Смыслы - простейшие вопросы про сестер и братьев, люди на них всегда правильно отвечают, то есть это даже не загадки а просто тупняк. Варианты вопроса про сестер брата алисы.
По цифрам они так же легко палятся, считать без калькулятора не умеют но делают вид что могут.
Современные ИИ пока что не могут пройти тест тьюринга даже без загадок, попадаются на простейших вопросах.
QweLoremIpsum
27.01.2025 06:42Deepseek прекрасно справился с подсчетом букв в режиме DeepThink. Вот как выглядят его рассуждения
Скрытый текст
gfiopl8
27.01.2025 06:42gemini thinking тоже прекрасно посчитал сначала, но ты диалог до конца дочитай
Wesha
27.01.2025 06:42А спросите, сколько букв в строке "ьфйцьмпьзйдеёваьлуко"
gfiopl8
27.01.2025 06:42сколько букв в строке "ьфйцьмпьзйдеёваьлуко"
The question asks for the number of letters in the string "ьфйцьмпьзйдеёваьлуко".
I need to count each character in the string.
Let's list each character and count them:ь
ф
й
ц
ь
м
п
ь
з
й
д
е
ё
в
а
ь
л
у
к
о
I counted 20 characters.
So the answer is 20.В строке "ьфйцьмпьзйдеёваьлуко" 20 букв.
Чтобы посчитать буквы, достаточно пересчитать каждый символ в строке.
Можете сами попробовать https://aistudio.google.com/app/prompts/new_chat нужен только впн и гугл аккаунт.
Proscrito
27.01.2025 06:42Хочешь получить умный ответ - спрашивай умно. (С)
Малако? Я бы в этом месте на другие буквы послал. Но у ллм терпение безгранично.
FluffyFeline
27.01.2025 06:42а если прочитать через а
Я тоже в начале подумал про малака. Придрались к нейросети
Antra
27.01.2025 06:42Вспомнился старый анекдот про сибирских лесорубов и японскую бензопилу...
Wesha
27.01.2025 06:42Людям не нужны абы какие ответы, людям нужны правильные ответы.
А недетерминированным молотком сами гвозди забивайте.
Alexey2005
27.01.2025 06:42Правильность - лишь один из критериев. Ещё людям нужны быстрые и дешёвые ответы. И ради увеличения последних двух параметров люди вполне готовы жертвовать некоторым количеством правильности.
Что касается молотка, то забивает не молоток, а система молоток+мастер. И второй у нас тоже сильно недетерминирован (особенно если это гастарбайтер, работающий за еду). В итоге нередко оказывается так, что детерминированность системы "нейронка+индус" оказывается выше, чем системы "пять индусов".
Antra
27.01.2025 06:42Добавка к "правильность - лишь один из критериев":
Что вы считаете правильным ответом на вопросы подобные описанному (молоко через А),. Люди-то разные ответы дают. Т.е. для разных людей "правильные" ответы разные. А модуль телепатии в нейронки действительно пока не завезли.
Зачем человеку нужен правильный ответ на вопрос "сколько букв а в слове молоко, если прочитать его через а" - отдельный вопрос. Мне кажется, ожидался не "правильный ответ", а развлечение. Оно и было получено.
RigidStyle
27.01.2025 06:42Это не детские вопросы, а вопросы того, кто настойки грибной в одну харю вгатил да квашней заморской занюхал.
Серьезно, на сколько нужно быть упоротым, что бы в 21ом веке разбираться в том, кто кому шурин и золовка?
Загадка про коробки и кошельки тоже абсурдна в своей сути. И вообще все эти задачки из разряда "есть два стула", где ты либо знаешь правильный ответ, либо тебя избивают. То-есть это не загадки и не задачки, а проверка мартышек мартышками на "свой-чужой".
engine9
27.01.2025 06:42Именно. Эти люди могут быть золовками и невестами по другим семьям и не связанными друг с другом семейными отношениями.
ilyamodder
27.01.2025 06:42Тем не менее, на них отлично видно, что они могут заучить пары «задача - решение», но не решить аналогичную задачу с чуть перефразированным условием. Что, в целом, от предсказывателей следующих слов в тексте ожидаемо.
vybo
27.01.2025 06:42Никакого абсурда в идее вложенности кошельков не разглядел, может они вообще про запас где-то валяются в ящике, логически всё однозначно (A и B - множества монет соответственно в первом и втором кошельке):
m(A)=2n, m(B)=n, m(A|B)=4, n∈N
m(A) ≤ m(A|B) → 2n ≤ 4 → n ≤ 2
m(A|B) ≤ m(A)+m(B) → 4 ≤ 3n → n ≥ 1.33
n = 2 → m(A)=4, m(B)=2, m(A&B)=4+2-4=2
qark
27.01.2025 06:42Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек?
Почему правильный ответ именно три? В задаче же нет условия минимальности количества.
Marshme
27.01.2025 06:42Задачи с подвохом, но в промте об этом нет упоминания, по этому LLM решает их в лоб. Как решил бы любой человек, которому забыли намекнуть про подвох. В этих примерах лично я вижу что тупой не LLM, а автор!
RMV1983
27.01.2025 06:42При текущем условии, я бы сказал, что правильный ответ: от 3 до 6, включительно.
Lecko
27.01.2025 06:42Первую задачу я бы сформулировал так.
Шел муж с женой, брат с сестрой да невестка с золовкой. Какое минимальное число людей необходимо, чтобы эти условия были выполнены?
В такой формулировке с ней справляются и ChatGPT, и Gemini
Для выполнения условий задачи, давайте разберем, как роли могут пересекаться:
Муж с женой — это одна пара.
Брат с сестрой — это могут быть те же муж и жена, где муж — брат, а жена — сестра.
Невестка с золовкой — невестка — это жена, а золовка — сестра мужа.
Таким образом, минимальное количество людей:
Муж, который также является братом.
Жена, которая является невесткой.
Сестра мужа, которая является золовкой.
Ответ: 3 человека.
NickyScout
27.01.2025 06:42А есть ли условие, что брат и сестра не могут быть мужем и женой? При этом, лицо женского пола будет сама себе золовкой. Если муж и жена - брат и сестра, тогда - всего 2 человека.
Akuma
27.01.2025 06:42А если он женился на картонке, то и вовсе один. Вот поэтому эти задачи и тупсюость, а не проверка интеллекта.
Per_Ardua
27.01.2025 06:42Там и в задаче с коробками сбивающая лексическая конструкция "А ещё" без выделения запятой. Я человек, но мне пришлось перечитать задачу, чтобы понять, что речь всё же не о трёх коробках.
Wesha
27.01.2025 06:42Там и в задаче с коробками сбивающая лексическая конструкция "А ещё" без выделения запятой
ВНЕЗАПНО, по правилам русского (а не олбанского) языка запятая там и не нужна.
urobobroz
27.01.2025 06:42Она там не нужна, если это присоединительный союз, а в данном контексте это вводное слово.
Wesha
27.01.2025 06:42в данном контексте это вводное слово
urobobroz
27.01.2025 06:42Источник — данная статья, в которой автор прямо указывает на то, что он не ожидал увидеть третью коробку в решении, значит «А ещё» не выступает в роли присоединительного союза, после которого не ставилась бы запятая.
Если есть основания полагать, что это присоединительный союз — велком, жду объяснений.
Бонус-вопрос: если мы уберём конструкцию «А ещё», изменится ли смысл предложения? Если учитывать, что таргет по смыслу — две коробки.
Wesha
27.01.2025 06:42Вопрос не в том, что там себе возомнил автор, а в правилах русского языка. Курите маны, ибо они рулезь.
urobobroz
27.01.2025 06:42Так и где там противочение с моими словами?
Кроме того, автор составил предложения не по нормам русского языка и с искажением смысла, а вы тут топите за "пусть нифига не понятно, зато якобы правильно"
Wesha
27.01.2025 06:42К сожалению, аффтар всё-таки составил предложение по нормам русского языка (но не по нормам русской литературы) — начинать предложение с "А ещё" хоть и не приветствуется, но не запрещено.
7313
27.01.2025 06:42А попробуйте спросить "сколько нужно букв чтобы написать слово молоко". Ни одна сетка не ответит что 4. Зато DeepSeek единственная из всех сетей правильно отвечает на загадку, перед которой и многие взрослые пасуют - если у коровы 2, собаки 3, петуха 8, а осла 2, то сколько у кошки?
Wendor
27.01.2025 06:42Чтобы написать слово молоко нужно 6 букв. Сколько букв в слове молоко? - 6. Все логично.
Сколько нужно букв алфавита чтобы написать слово "молоко"? Чувствуете, вопрос стал конкретнее? Уже понимаешь, что речь не о количестве знаков в слове, а о количестве уникальных знаков. Нейронка почувствовала и ответила 4)
michael108
27.01.2025 06:42Не уверен, что люди с ходу додумаются, что речь идет не о физических атрибутех (типа рогов и копыт). Плюс надо еще знать тонкости языка (кому что приписывают, например, у собаки может быть не 3, а 6), и в разных языках это может быть по-разному.
Так что это -- типичная "ловушка".
А конкретно для русскоязычных -- у кошки 3 )))
Человек отличается от ЛЛМ тем, что он думает "образами", а не "последовательностью токенов". А "образ" -- это, по сути, эмуляция реальности в сознании, типа визуализации комнаты в Блендере или 3dMax по чертежам. ИИ до такого еще не скоро доберется -- там объемы вычислений на несколько порядков вырастут. Или на МНОГО порядков ))
manualBrake
27.01.2025 06:42Но этот вопрос опять же легко гуглится, давайте подобный, но с другими животными? Например лошадь 7, утка 3, ворона 3, свинья 3, рыба 0.
StjarnornasFred
27.01.2025 06:42В зависимости от языка эта же задача может иметь совершенно другие решения.
manualBrake
27.01.2025 06:42Зачем вы пытаетесь ответить на вопрос заданный на русском языке на каком-то другом? Начало ветки тоже про вопрос на русском языке, и вроде как дипсик его осилила.
trimal
27.01.2025 06:42Первый раз услышал про корову, собаку, петуха, осла и кошку. Такое впечатление что это придумал кто-то из психбольницы или очень маленький ребенок.
engine9
27.01.2025 06:42Эти загадки не показательны, т.к. имеют множество решений которые формально будут соответствовать условиям задачи.
nakirrrr
27.01.2025 06:42я тебя удивлю https://aistudio.google.com/ vpn включи выбирай бета флеш 2.0 решил каждую правильно затратив 1-2 секунды. Хотя никто не спорит с тем что логика это мышление коим современные модели обладать не могут пока
mithdradates
27.01.2025 06:42Что за QwenLM? Моделей Qwen великое множество, самые последние - Qwen 2.5, а рассуждающий вариант QwQ-32b, которая в другой весовой категории по сравнению с o1 и r1, у которых сотни миллионов параметров)
Anti-antivakser
27.01.2025 06:42Чуваки если вы не смогли решить такие простейшие задачки и начали это оправдывать излишним усложнением то это ваши проблемы. Это говорит о том, что либо вы не достаточно подумали, либо то, что маловероятно - недостаточно умны. Вероятнее всего первый вариант. Я лично не знал этих загадок и решил их менее чем за 5 секунд каждую.
Ваше оправдание в виде: что мол "не описано являются ли эти люди родственниками" не принимается, ибо в правилах логики и загадок строящихся на правилах формальной логики лежит условие, если что-то не обговорено то, это - исключено. Вы просто плодите сущее без надобности.
И ладно это вы просто поленились загуглить раз не знаете кто такие шурин и золовка, но оправдания для LLM вообще нет, они уж точно не могли не знать кто это. Эти задачи явно показывают что реальный мир им совершенно не понятен и не доступен они просто не являются физическими объектами в реальном мире и все их представление о мире хуже чем через кривое зеркало. Они буквально не думают, даже в "думающих" моделях а просто подставляют шаблоны. Эти ИИ точно мира не захватят. Но я думаю расслабляться не стоит ибо прогресс это то, что может и будет удивлять нас постоянно. Казалось бы вот они не справляются с задачками для детей и тут бац! Пройдет лет 5 а ты уже кожаный раб на галере у ИИ.
KaminskyIlya
сомневаюсь что даже каждый взрослый способен решить такую головоломку правильно. я вот до сих пор не понимаю этой бытовой терминологии (шурин, тесть, золовка и прочее). Поэтому решил, что в топике идет речь о 6(!) человеках.
Попробуйте попросить нейронку вывести формулу "гамма-функция произведения" Г(kx)=.... И будете разочарованы результатом. Честно - самому очень нужно. Но увы, мастер диссертаций ChatGPT, несколько не дотягивает мозгами до Ейлера и Гаусса. Всё что мне смогла выкатить нейронка на вопрос: как считать Гамма функцию с заказной точностью от 80 знаков после запятой и выше - это советы, гордо подчерпнутые из Википедии и других интернет-ресурсов. Чудес не бывает.
Максимум что мы имеем - уровень Онотоле Вссермана. И на том спасибо.
Zanzilka
А какой моделью вы пользовались для ответа на такой вопрос? GPT-4o? o1? Или o1-pro? Судя по вашему запросу вам нужна именно последняя, которая стоит 200$ в месяц. Можете прислать детальное описание вашего задания (если сможете - на английском языке, так результат будет лучше), я попробую его выполнить на o1-pro, посмотрим что получится.
Kostyano_o
Если не затруднит продублируйте получилось ли. Заранее спасибо
Bronn
Странно, я проверил эти задачи на телеграм боте @gpt3_unlim_chatbot и получил верные ответы.
Proscrito
У ботов могут быть предварительные настройки. Вернее, они обычно всегда есть, не всегда просто открыты. Тот же гпт позволяет задать контекст из файлов и набора инструкций, как формировать ответы и тд. Можно задать что-то вроде "Отвечай максимально лаконично, исходи из того что ты на олимпиаде по физике, вопросы задает профессор, учитывай спецификацию в загруженных файлах" и в таком духе. Одна и та же модель будет давать абсолютно разные ответы на одни и те же вопросы. Можно настраивать самому, есть и библиотека предустановленных сеттингов. Возможно ваш чат-бот имеет более подходящие для подобного треша установки.
Anton888
У меня ChatGPT-1o тоже дал верные ответы в обеих задачах (и с золовкой, и с коробками). Над каждой думал долго - минуты три.