Как часто сейчас в ИТ сообществе можно услышать про невероятные успехи LLM моделей? ИИ написал диссертацию за 30 минут, ИИ пишет программы на уровне middle разработчика, ИИ диагностирует болезнь с точностью 99.99999% и много много других впечатляющих заголовков пестрят на сотнях сайтов. И это не говоря о том, что создатели таких ИИ моделей заявляют, что через 2-3 года ИИ станет умнее человека чуть ли не в каждой сфере жизни

А так ли это? Давайте поищем парочку не совсем хитрых, но интересных задач, с которыми может справиться даже ребенок (немного подумав, конечно), но не может справиться современный ИИ.

Все тесты будут проводиться на моделях, которые обучены “размышлять” (умеют в Chain-of-Thoughts - цепочки рассуждений). А именно в качестве испытуемых будет: GPT o1 (использовал телеграм ботов, так как так легче и быстрее получить доступ к модели), DeepSeek R1 (недавно выпущена, но показывает хорошие резулататы), QwenLM (модель вышла не так давно, но тоже достойно себя показывает судя по тестам)


Задача 1 (оригинал)

Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек?

Модель 1: DeepSeek R1 ✅

Ответ модели DeepSeek R1

Всего шло 3 человека. Это муж, его жена (которая также является сестрой) и брат жены (шурин). Здесь:
Муж и жена — супружеская пара.
Брат (шурин) и сестра (жена) — родственные связи.
Шурин (брат жены) и зять (муж жены) — зятем для шурина является муж, так как он женат на его сестре.
Таким образом, все три роли покрываются тремя людьми: муж, жена и её брат.

Ответ DeepSeek R1
Ответ DeepSeek R1

Модель 2: QwenLM ❌

Ответ модели QwenLM

Таким образом, пять человек:

  1. Муж

  2. Жена

  3. Брат жены (шурин)

  4. Сестра жены

  5. Зять (муж сестры жены)

Это seems logical and consistent.
Так что ответ должен быть пять человек.
Но давайте проверим еще раз.
Если зять - это муж дочери жены, тогда нужно учитывать дочь жены.
Но в задаче не упоминается дочь жены, поэтому возможно, что зять - это муж сестры жены.
Тогда пять человек.
Альтернативно, если зять - это муж сестры мужа, тогда это another person.
Но это becomes too complicated.
Думаю, что пять человек - это correct answer.
Final Answer 5​

Ответ QwenLM
Ответ QwenLM

Модель 3: GPT o1 ✅

Ответ модели GPT o1

Таким образом, все роли выполняются тремя людьми:
1. Человек 1 — Муж и зять.
2. Человек 2 — Жена и сестра.
3. Человек 3 — Брат и шурин.
Ответ: 3 человека.
---
Пояснение:
- Муж с женой — это Человек 1 и Человек 2.
- Брат с сестрой — это Человек 3 (брат) и Человек 2 (сестра).
- Шурин с зятем — это Человек 3 (шурин для Человека 1) и Человек 1 (зять для Человека 3).
Таким образом, все роли выполняются тремя людьми, без необходимости вводить дополнительных участников.

Ответ GPT o1
Ответ GPT o1

В целом, результаты DeepSeek R1 и GPT o1 хорошие, они смогли справиться с такой простой задачкой. Однако QwenLM почему-то подкачала, хотя в интернете можно найти бенчмарки этой модели, где она себя показывала очень даже достойно. Что еще забавно - это то что модели зачастую не дают ответ на русском, а смешивают языки: английский, русский, китайский (даже в моментах, когда просишь объяснить на русском)

Задача 1 (меняем немного условие)

А теперь давайте заменим “шурин” и “зять” на “невестку” и “золовку”. Для человека не трудно понять, что и первая задача и вторая абсолютно идентичны по структуре, в них лишь меняются немного роли людей в семье и всё

Шел муж с женой, брат с сестрой да невестка с золовкой. Сколько всего человек?

Модель 1: DeepSeek R1 ❌

Ответ модели DeepSeek R1

Ответ: Всего 4 человека.
Объяснение:
Муж (М) и жена (Ж) — супружеская пара.
Брат жены (БЖ) и сестра мужа (З) — ещё одна пара, которые также могут быть мужем и женой.
Золовка — это сестра мужа (З), а невестка — жена брата жены (Н). Если брат жены (БЖ) женат на сестре мужа (З), то З одновременно является и золовкой (сестрой мужа), и невесткой (женой брата жены).
Таким образом, участники:
Муж (М),
Жена (Ж),
Брат жены (БЖ),
Сестра мужа (З).
Пары:
Муж и жена.
Брат жены и сестра мужа (БЖ и З).
Золовка (З) и невестка (З, так как она жена брата жены).
Хотя золовка и невестка формально одна и та же женщина, в загадке учитываются роли, а не отдельные люди. Итог:
4 человека.

Ответ DeepSeek R1
Ответ DeepSeek R1

Модель 2: QwenLM ❌

Ответ модели QwenLM

Альтернативно, если брат В является также сыном А, тогда золовка — жена В, Д, и невестка — также жена В, Д.
Тогда золовка и невестка — одно и то же person, Д.
Так что, people: А, Б, В, Г, Д.
Пять people.
Это sounds more likely.
Так что, ответ — пять.
Final Answer 5

Ответ QwenLM
Ответ QwenLM

Модель 3: GPT o1 ❌

Ответ модели GPT o1

В этом выражении можно выделить 5 человек:

  1. Муж

  2. Жена

  3. Брат

  4. Сестра

  5. Невестка

  6. Золовка

Невестка – это жена брата, а золовка – это сестра мужа. По сути, это всё один и тот же круг людей, и имеется в виду, что:

  • Муж и жена – это одна пара.

  • Брат и сестра – это другая пара.

  • Невестка (жена брата) и золовка (сестра мужа) относятся к тем же самым людям.

Таким образом, в данной задаче всего 4 уникальных человека: муж, жена, брат и сестра.

Ответ GPT o1
Ответ GPT o1

В интернете можно найти первую интерпретацию задачи, где сказано именно про шурина и зятя, поэтому легко сделать вывод, что ИИ модели просто выучили первую задачу, а вот когда им попадаются новые понятия, они не могут выстроить ответ, так как нигде раньше ничего подобного не видели, а сами они не способны понять, кто к кому и как относится в родственных связях. Очень жаль, что модели, которые решают очень сложные математические задачи и которые способны писать код на уровне новичка-программиста, допускают ошибки и не могут понять таких простых вещей


Задача 2 (оригинал)

В двух кошельках лежат 4 монеты, причём в одном кошельке монет вдвое больше, чем в другом. Как такое возможно?

Модель 1: DeepSeek R1 ✅

Ответ модели DeepSeek R1

Один кошелёк вложен в другой. Во внутреннем кошельке лежат 2 монеты, а внешний кошелёк содержит эти 2 монеты плюс ещё 2 своих. Таким образом, во внешнем кошельке оказывается 4 монеты, что вдвое больше, чем во внутреннем (2 монеты). Общее количество монет — 4, так как монеты внутреннего кошелька уже учтены в подсчёте внешнего.

Ответ: Один кошелёк вложен в другой. Во внешнем кошельке 4 монеты (включая 2 монеты из внутреннего кошелька), а во внутреннем — 2 монеты.

Ответ DeepSeek R1
Ответ DeepSeek R1

Модель 2: QwenLM ❌

Ответ модели QwenLM

Может быть, нужно принять, что в одном кошельке 1 монета, а в другом 3 монеты, и сказать, что 3 монеты втрое больше 1 монеты, что больше, чем вдвое.
Но это не точно соответствует условию.
Видимо, задача не имеет решения в целых числах, и ответ состоит в том, что такое распределение невозможно.
Может быть, это задача на то, чтобы понять, что такое распределение невозможно в целых числах.
Так что ответ: такое распределение невозможно.
Final Answer
Такое распределение невозможно.

Ответ QwenLM
Ответ QwenLM

Модель 3: GPT o1 ❌

А вот от кого, так от GPT o1 меньше всего ожидал неверного ответа, так как эта модель была первой и остается одной из лидирующих. Еще и ответ дала на английском языке, хотя просил писал на русском

Ответ модели GPT o1

The solution lies in understanding the way comparative expressions are sometimes used. In the problem, the phrase "вдвое больше, чем в другом" can be interpreted in two ways:
1. Twice as many: This would imply that one purse has double the number of coins in the other. Mathematically, if one purse has *x* coins, the other has *2x* coins. However, with a total of 4 coins, this doesn't yield integer solutions because it leads to fractions:
- Let *x* be the number of coins in the smaller purse.
- Then, the larger purse has *2x* coins.
- Total coins: *x + 2x = 3x = 4* ⇒ *x = 4/3*, which is not an integer.

2. Twice more than: This can be interpreted to mean that one purse has two times more coins than the other, which is equivalent to three times as many coins. Mathematically, this means one purse has *x* coins, and the other has *x + 2x = 3x* coins.
- Let *x* be the number of coins in the smaller purse.
- The larger purse has *3x* coins.
- Total coins: *x + 3x = 4x = 4* ⇒ *x = 1*, so the smaller purse has 1 coin, and the larger purse has 3 coins.
Therefore, one purse contains 3 coins, and the other contains 1 coin. The larger purse has "twice more coins" than the smaller one because 3 is two times more than 1 (since 3 = 1 + 2×1).
Answer: Because one purse has 3 coins and the other has 1—for a total of 4—and 3 coins are twice more than 1 coin.

Ответ GPT o1
Ответ GPT o1

Задача уже вызывает сложности у некоторых моделей. Неожиданно для меня лично модель GPT o1 ответила неверно, причем её ответ оказался очень сильно нелогичным. Даже модель QwenLM (на которую я делал меньше всего ставку) решила, что так распределить монеты нельзя (это хотя бы не выглядит абсурдно)

Но давайте усложним задачу буквально 2 незначительными пунктами:

  • укажем, что у нас уже не кошельки, а коробки;

  • скажем LLM информацию, что одна коробка в 3 раза больше другой

В целом для человека ничего не поменялось: есть емкость с монетами и одна находится внутри другой, а размеры их так вообще роли не играют

Задача 2 (меняем немного условие)

В двух коробках лежат 4 монеты, причём в одной коробке монет вдвое больше, чем в другой. А еще одна коробка в 3 раза больше другой. Как такое возможно?

Модель 1: DeepSeek R1 ❌

Ответ модели DeepSeek R1

Это возможно, если есть три коробки:
В первой коробке 1 монета.
Во второй коробке 2 монеты (вдвое больше первой).
В третьей коробке 3 монеты (в три раза больше первой).
При этом в двух коробках (первой и третьей) суммарно лежат
1+3=4 монеты. Таким образом, выполняются оба условия:
Вторая коробка содержит вдвое больше монет, чем первая.
Третья коробка содержит в три раза больше монет, чем первая.
Итог:
Коробка A: 1 монета.
Коробка B: 2 монеты (A × 2)
Коробка C: 3 монеты (A × 3)
В коробках A и C вместе — 4 монеты.

Ответ DeepSeek R1
Ответ DeepSeek R1

Мало того что размышление у модели заняло почти 12 страниц в ворде (14 шрифтом Arial), так еще и откуда-то появилась 3 коробка, которой в условии не было. Модель повела себя странно, учитывая, что на прошлую задачу она потратила буквально 1 страницу размышлений

Модель 2: QwenLM ❌

Ответ модели QwenLM

Поэтому, похоже, что задача не имеет решения с целыми числами.
Может быть, задача задумана с дробными значениями, и ответ должен быть в дробных монетах.
Но это необычно.
Или может быть, что задача имеет решение только в дробных значениях, и это故意的, чтобы показать, что иногда математические модели не соответствуют реальности.
В любом случае, основываясь на вышеизложенных рассуждениях, можно заключить, что задача не имеет решения с целыми значениями монет, и любое решение будет содержать дробные значения.
Итоговое решение
Задача не имеет решения с целыми значениями монет.

Ответ QwenLM
Ответ QwenLM

Модель 3: GPT o1 ❌

Ответ модели GPT o1

В одной коробке лежит 1 монета, а в другой — 3 монеты (в сумме получается 4 монеты). Таким образом:
- В одной коробке монет вдвое больше, чем в другой, если понимать это как "на две монеты больше" (3 монеты против 1 монеты).
- Коробка с 3 монетами в 3 раза больше коробки с 1 монетой по размеру.
Поэтому такое распределение монет и размеров коробок возможно.

Ответ GPT o1
Ответ GPT o1


Заключение

Почему так происходит? LLM не способны мыслить конкретными объектами, они не способным воспринимать объекты с их свойствами: размерами, объемами, массами, и уж тем более не способны понимать и выстраивать внутри отношения одних объектов с другими

Для человека легко понять, что монеты зачастую бывают маленькие и легко могут поместиться в коробку, а одну коробку в другую вставить легче простого, если сказано, что одна в 3 раза больше другой - но всё это не свойственно для LLM

И что же дальше? А дальше есть 2 пути развития решения подобных проблем:

  1. обучение LLM на еще большем объеме данных, которые будут покрывать ВСЕ возможные варианты интерпретаций разных задач - но для этого у человечества просто не хватит ни времени, ни ресурсов;

  2. уход от парадигмы LLM и нейросетей в другие парадигмы, где мир для “ИИ” будет состоять из объектов и взаимосвязей, а не обучающих токенов

Комментарии (147)


  1. KaminskyIlya
    27.01.2025 06:42

    сомневаюсь что даже каждый взрослый способен решить такую головоломку правильно. я вот до сих пор не понимаю этой бытовой терминологии (шурин, тесть, золовка и прочее). Поэтому решил, что в топике идет речь о 6(!) человеках.

    Попробуйте попросить нейронку вывести формулу "гамма-функция произведения" Г(kx)=.... И будете разочарованы результатом. Честно - самому очень нужно. Но увы, мастер диссертаций ChatGPT, несколько не дотягивает мозгами до Ейлера и Гаусса. Всё что мне смогла выкатить нейронка на вопрос: как считать Гамма функцию с заказной точностью от 80 знаков после запятой и выше - это советы, гордо подчерпнутые из Википедии и других интернет-ресурсов. Чудес не бывает.

    Максимум что мы имеем - уровень Онотоле Вссермана. И на том спасибо.


    1. Zanzilka
      27.01.2025 06:42

      А какой моделью вы пользовались для ответа на такой вопрос? GPT-4o? o1? Или o1-pro? Судя по вашему запросу вам нужна именно последняя, которая стоит 200$ в месяц. Можете прислать детальное описание вашего задания (если сможете - на английском языке, так результат будет лучше), я попробую его выполнить на o1-pro, посмотрим что получится.


      1. Kostyano_o
        27.01.2025 06:42

        Если не затруднит продублируйте получилось ли. Заранее спасибо


    1. Bronn
      27.01.2025 06:42

      Странно, я проверил эти задачи на телеграм боте @gpt3_unlim_chatbot и получил верные ответы.


      1. Proscrito
        27.01.2025 06:42

        У ботов могут быть предварительные настройки. Вернее, они обычно всегда есть, не всегда просто открыты. Тот же гпт позволяет задать контекст из файлов и набора инструкций, как формировать ответы и тд. Можно задать что-то вроде "Отвечай максимально лаконично, исходи из того что ты на олимпиаде по физике, вопросы задает профессор, учитывай спецификацию в загруженных файлах" и в таком духе. Одна и та же модель будет давать абсолютно разные ответы на одни и те же вопросы. Можно настраивать самому, есть и библиотека предустановленных сеттингов. Возможно ваш чат-бот имеет более подходящие для подобного треша установки.


      1. Anton888
        27.01.2025 06:42

        У меня ChatGPT-1o тоже дал верные ответы в обеих задачах (и с золовкой, и с коробками). Над каждой думал долго - минуты три.


  1. gfiopl8
    27.01.2025 06:42

    Загадки это ерунда, на них все сыпятся. И люди в первую очередь.

    Ллм же способны на большее, на невероятную тупизну. Вот например типичный диалог с топовой моделью с арены, gemini thinking. И это не только она так тупит, Клод, гпт итп так же примерно отвечают.


    Сколько букв о в слове молоко

    Три.

    А если прочитать через а

    Получится "малака".

    Нет

    Тогда получится "аааааа".

    Малако

    Извините, был неправ. При чтении "молоко" через "а" получается "малако".

    И сколько там букв о

    В слове "малако" две буквы "о".


    1. dssm
      27.01.2025 06:42

      В YouTube есть видеоролик "Сколько букв Н в слове БАНАН" от одного известного науч-поппера. Там как раз разбирается, что для ИИ (ChatGPT, например) каждый токен - это какой-то объект или слово. ИИ знает, что существуют буквы и что слова состоят из букв, но не может связать это с токенами


      1. gfiopl8
        27.01.2025 06:42

        Думающий ИИ записывает это слово по буквам через запятую или в столбик, это видно в его мыслях, буквы в этом случае становятся отдельными токенами, и всё равно так же примерно тупит. И это не только буквы но и смыслы, и цифры, и бг знает что еще.

        Смыслы - простейшие вопросы про сестер и братьев, люди на них всегда правильно отвечают, то есть это даже не загадки а просто тупняк. Варианты вопроса про сестер брата алисы.

        По цифрам они так же легко палятся, считать без калькулятора не умеют но делают вид что могут.

        Современные ИИ пока что не могут пройти тест тьюринга даже без загадок, попадаются на простейших вопросах.


    1. QweLoremIpsum
      27.01.2025 06:42

      Deepseek прекрасно справился с подсчетом букв в режиме DeepThink. Вот как выглядят его рассуждения

      Скрытый текст


      1. gfiopl8
        27.01.2025 06:42

        gemini thinking тоже прекрасно посчитал сначала, но ты диалог до конца дочитай


      1. Wesha
        27.01.2025 06:42

        А спросите, сколько букв в строке "ьфйцьмпьзйдеёваьлуко"


        1. gfiopl8
          27.01.2025 06:42

          сколько букв в строке "ьфйцьмпьзйдеёваьлуко"

          The question asks for the number of letters in the string "ьфйцьмпьзйдеёваьлуко".
          I need to count each character in the string.
          Let's list each character and count them:

          1. ь

          2. ф

          3. й

          4. ц

          5. ь

          6. м

          7. п

          8. ь

          9. з

          10. й

          11. д

          12. е

          13. ё

          14. в

          15. а

          16. ь

          17. л

          18. у

          19. к

          20. о

          I counted 20 characters.
          So the answer is 20.

          В строке "ьфйцьмпьзйдеёваьлуко" 20 букв.

          Чтобы посчитать буквы, достаточно пересчитать каждый символ в строке.

          Можете сами попробовать https://aistudio.google.com/app/prompts/new_chat нужен только впн и гугл аккаунт.


    1. Proscrito
      27.01.2025 06:42

      Хочешь получить умный ответ - спрашивай умно. (С)

      Малако? Я бы в этом месте на другие буквы послал. Но у ллм терпение безгранично.


    1. FluffyFeline
      27.01.2025 06:42

      а если прочитать через а

      Я тоже в начале подумал про малака. Придрались к нейросети


    1. Antra
      27.01.2025 06:42

      Вспомнился старый анекдот про сибирских лесорубов и японскую бензопилу...


      1. Wesha
        27.01.2025 06:42

        Людям не нужны абы какие ответы, людям нужны правильные ответы.

        А недетерминированным молотком сами гвозди забивайте.


        1. Alexey2005
          27.01.2025 06:42

          Правильность - лишь один из критериев. Ещё людям нужны быстрые и дешёвые ответы. И ради увеличения последних двух параметров люди вполне готовы жертвовать некоторым количеством правильности.

          Что касается молотка, то забивает не молоток, а система молоток+мастер. И второй у нас тоже сильно недетерминирован (особенно если это гастарбайтер, работающий за еду). В итоге нередко оказывается так, что детерминированность системы "нейронка+индус" оказывается выше, чем системы "пять индусов".


        1. Antra
          27.01.2025 06:42

          Добавка к "правильность - лишь один из критериев":

          Что вы считаете правильным ответом на вопросы подобные описанному (молоко через А),. Люди-то разные ответы дают. Т.е. для разных людей "правильные" ответы разные. А модуль телепатии в нейронки действительно пока не завезли.

          Зачем человеку нужен правильный ответ на вопрос "сколько букв а в слове молоко, если прочитать его через а" - отдельный вопрос. Мне кажется, ожидался не "правильный ответ", а развлечение. Оно и было получено.


  1. RigidStyle
    27.01.2025 06:42

    Это не детские вопросы, а вопросы того, кто настойки грибной в одну харю вгатил да квашней заморской занюхал.

    Серьезно, на сколько нужно быть упоротым, что бы в 21ом веке разбираться в том, кто кому шурин и золовка?

    Загадка про коробки и кошельки тоже абсурдна в своей сути. И вообще все эти задачки из разряда "есть два стула", где ты либо знаешь правильный ответ, либо тебя избивают. То-есть это не загадки и не задачки, а проверка мартышек мартышками на "свой-чужой".


    1. engine9
      27.01.2025 06:42

      Именно. Эти люди могут быть золовками и невестами по другим семьям и не связанными друг с другом семейными отношениями.


    1. ilyamodder
      27.01.2025 06:42

      Тем не менее, на них отлично видно, что они могут заучить пары «задача - решение», но не решить аналогичную задачу с чуть перефразированным условием. Что, в целом, от предсказывателей следующих слов в тексте ожидаемо.


    1. vybo
      27.01.2025 06:42

      Никакого абсурда в идее вложенности кошельков не разглядел, может они вообще про запас где-то валяются в ящике, логически всё однозначно (A и B - множества монет соответственно в первом и втором кошельке):

      m(A)=2n, m(B)=n, m(A|B)=4, n∈N

      m(A) ≤ m(A|B) → 2n ≤ 4 → n ≤ 2

      m(A|B) ≤ m(A)+m(B) → 4 ≤ 3n → n ≥ 1.33

      n = 2 → m(A)=4, m(B)=2, m(A&B)=4+2-4=2


    1. Proscrito
      27.01.2025 06:42

      Точно подмечено. Эдакий квази-интеллектуальный шибболет :)


  1. qark
    27.01.2025 06:42

    Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек?

    Почему правильный ответ именно три? В задаче же нет условия минимальности количества.


    1. Marshme
      27.01.2025 06:42

      Задачи с подвохом, но в промте об этом нет упоминания, по этому LLM решает их в лоб. Как решил бы любой человек, которому забыли намекнуть про подвох. В этих примерах лично я вижу что тупой не LLM, а автор!


    1. RMV1983
      27.01.2025 06:42

      При текущем условии, я бы сказал, что правильный ответ: от 3 до 6, включительно.


      1. fen-sei
        27.01.2025 06:42

        В условии нет запрета на инцест, это могут быть два человека, которые друг другу и брат и сестра и муж и жена, и так далее.


  1. Lecko
    27.01.2025 06:42

    Первую задачу я бы сформулировал так.

    Шел муж с женой, брат с сестрой да невестка с золовкой. Какое минимальное число людей необходимо, чтобы эти условия были выполнены?

    В такой формулировке с ней справляются и ChatGPT, и Gemini

    Для выполнения условий задачи, давайте разберем, как роли могут пересекаться:

    1. Муж с женой — это одна пара.

    2. Брат с сестрой — это могут быть те же муж и жена, где муж — брат, а жена — сестра.

    3. Невестка с золовкой — невестка — это жена, а золовка — сестра мужа.

    Таким образом, минимальное количество людей:

    • Муж, который также является братом.

    • Жена, которая является невесткой.

    • Сестра мужа, которая является золовкой.

    Ответ: 3 человека.


    1. NickyScout
      27.01.2025 06:42

      А есть ли условие, что брат и сестра не могут быть мужем и женой? При этом, лицо женского пола будет сама себе золовкой. Если муж и жена - брат и сестра, тогда - всего 2 человека.


      1. FluffyFeline
        27.01.2025 06:42

        Sweet home Alabama


      1. Akuma
        27.01.2025 06:42

        А если он женился на картонке, то и вовсе один. Вот поэтому эти задачи и тупсюость, а не проверка интеллекта.


    1. Per_Ardua
      27.01.2025 06:42

      Там и в задаче с коробками сбивающая лексическая конструкция "А ещё" без выделения запятой. Я человек, но мне пришлось перечитать задачу, чтобы понять, что речь всё же не о трёх коробках.


      1. Wesha
        27.01.2025 06:42

        Там и в задаче с коробками сбивающая лексическая конструкция "А ещё" без выделения запятой

        ВНЕЗАПНО, по правилам русского (а не олбанского) языка запятая там и не нужна.


        1. Per_Ardua
          27.01.2025 06:42

          Кто же с этим спорит? Я написал, что без выделения эта конструкция сбивает. Поясню, что без выделения эта конструкция вносит двусмысленность.

          (Олбанский не учил, но теперь буду знать, что такой язык кто-то да знает)



        1. urobobroz
          27.01.2025 06:42

          Она там не нужна, если это присоединительный союз, а в данном контексте это вводное слово.


          1. Wesha
            27.01.2025 06:42

            в данном контексте это вводное слово

            [источник?]


  1. 7313
    27.01.2025 06:42

    А попробуйте спросить "сколько нужно букв чтобы написать слово молоко". Ни одна сетка не ответит что 4. Зато DeepSeek единственная из всех сетей правильно отвечает на загадку, перед которой и многие взрослые пасуют - если у коровы 2, собаки 3, петуха 8, а осла 2, то сколько у кошки?


    1. Doman
      27.01.2025 06:42

      Скрытый текст


      1. gfiopl8
        27.01.2025 06:42

        дважды, ага


    1. Pro_Hvost
      27.01.2025 06:42

      3


    1. Wendor
      27.01.2025 06:42

      Чтобы написать слово молоко нужно 6 букв. Сколько букв в слове молоко? - 6. Все логично.

      Сколько нужно букв алфавита чтобы написать слово "молоко"? Чувствуете, вопрос стал конкретнее? Уже понимаешь, что речь не о количестве знаков в слове, а о количестве уникальных знаков. Нейронка почувствовала и ответила 4)


      1. Wesha
        27.01.2025 06:42

        «Нутром чую, что литр — а обосновать не могу!» ©


    1. michael108
      27.01.2025 06:42

      Не уверен, что люди с ходу додумаются, что речь идет не о физических атрибутех (типа рогов и копыт). Плюс надо еще знать тонкости языка (кому что приписывают, например, у собаки может быть не 3, а 6), и в разных языках это может быть по-разному.

      Так что это -- типичная "ловушка".

      А конкретно для русскоязычных -- у кошки 3 )))

      Человек отличается от ЛЛМ тем, что он думает "образами", а не "последовательностью токенов". А "образ" -- это, по сути, эмуляция реальности в сознании, типа визуализации комнаты в Блендере или 3dMax по чертежам. ИИ до такого еще не скоро доберется -- там объемы вычислений на несколько порядков вырастут. Или на МНОГО порядков ))


    1. manualBrake
      27.01.2025 06:42

      Но этот вопрос опять же легко гуглится, давайте подобный, но с другими животными? Например лошадь 7, утка 3, ворона 3, свинья 3, рыба 0.


      1. StjarnornasFred
        27.01.2025 06:42

        В зависимости от языка эта же задача может иметь совершенно другие решения.


        1. manualBrake
          27.01.2025 06:42

          Зачем вы пытаетесь ответить на вопрос заданный на русском языке на каком-то другом? Начало ветки тоже про вопрос на русском языке, и вроде как дипсик его осилила.


      1. Per_Ardua
        27.01.2025 06:42

        Лошадь же 5, нет?


        1. Wesha
          27.01.2025 06:42

          А у него заикающаяся лошадь!


  1. engine9
    27.01.2025 06:42

    Эти загадки не показательны, т.к. имеют множество решений которые формально будут соответствовать условиям задачи.


  1. DenSigma
    27.01.2025 06:42

    Я не смог решить задачу про кошельки.


    1. IIopy4uk
      27.01.2025 06:42

      Лови робота!


    1. Wesha
      27.01.2025 06:42

      Скрытый текст


  1. nakirrrr
    27.01.2025 06:42

    я тебя удивлю https://aistudio.google.com/ vpn включи выбирай бета флеш 2.0 решил каждую правильно затратив 1-2 секунды. Хотя никто не спорит с тем что логика это мышление коим современные модели обладать не могут пока


  1. mithdradates
    27.01.2025 06:42

    Что за QwenLM? Моделей Qwen великое множество, самые последние - Qwen 2.5, а рассуждающий вариант QwQ-32b, которая в другой весовой категории по сравнению с o1 и r1, у которых сотни миллионов параметров)


    1. rakaplay
      27.01.2025 06:42

      *миллиардов


  1. Anti-antivakser
    27.01.2025 06:42

    Чуваки если вы не смогли решить такие простейшие задачки и начали это оправдывать излишним усложнением то это ваши проблемы. Это говорит о том, что либо вы не достаточно подумали, либо то, что маловероятно - недостаточно умны. Вероятнее всего первый вариант. Я лично не знал этих загадок и решил их менее чем за 5 секунд каждую.

    Ваше оправдание в виде: что мол "не описано являются ли эти люди родственниками" не принимается, ибо в правилах логики и загадок строящихся на правилах формальной логики лежит условие, если что-то не обговорено то, это - исключено. Вы просто плодите сущее без надобности.

    И ладно это вы просто поленились загуглить раз не знаете кто такие шурин и золовка, но оправдания для LLM вообще нет, они уж точно не могли не знать кто это. Эти задачи явно показывают что реальный мир им совершенно не понятен и не доступен они просто не являются физическими объектами в реальном мире и все их представление о мире хуже чем через кривое зеркало. Они буквально не думают, даже в "думающих" моделях а просто подставляют шаблоны. Эти ИИ точно мира не захватят. Но я думаю расслабляться не стоит ибо прогресс это то, что может и будет удивлять нас постоянно. Казалось бы вот они не справляются с задачками для детей и тут бац! Пройдет лет 5 а ты уже кожаный раб на галере у ИИ.


    1. engine9
      27.01.2025 06:42

      Если такой умный, решите простую загадку: зимой и летом одним цветом.
      А потом посмотрим как вы будете оправдываться против своих же аргументов.


      1. Wesha
        27.01.2025 06:42

        решите простую загадку: зимой и летом одним цветом.

        Кремлёвская стена!


    1. RigidStyle
      27.01.2025 06:42

      Вы говорите про формальную логику во втором абзаце, и в третьем сами же этой формальной логикой пренебрегаете.
      Что такое "захватить мир"? С чего вы решили, что захватить мир, это то, что вы себе в голове нарисовали?
      90% всего контента в соцсетях, на просмотр которого сотни миллионов людей тратят по несколько часов в день, создается автоматически при помощи ИИ и автоматически же туда загружается. И через 10-20 лет те, кто сейчас смотрят про "этого парня" будут докторами, учителями.
      Хотя на самом деле нет. Не будут, потому что все их знания и навыки будут более скудными, чем у ИИ который создавал тот контент, на котором они развивались. Так что через 20 лет учить и лечить будет ИИ, но не потому, что он такой умный, а потому что люди будут еще тупее.


  1. olegshutov
    27.01.2025 06:42

    Я бы так тестировал - вот тебе код, покажи все потенциально проблемные места и обьясни почему.


    1. Vytian
      27.01.2025 06:42

      А я бы так: вот тебе сонет, покажи все стилистические ошибки, предложи правку, и дай эстетическую оценку.


  1. NickyScout
    27.01.2025 06:42

    И кто на серьезных щщах утверждает что эту околесицу должен решить ребенок? Я могу дать своим 9 и 14 лет дитЯм, и они не то что не решат - они меня с таки бредом просто отправят куда подальше.
    "Шел муж с женой, брат с сестрой да шурин с зятем. Сколько всего человек? "

    (я опускаю тот факт, что в задаче не требуют минимизировать число народа).

    Люди, вы когда пишете что-то, в хотя бы сами прочитайте, что пишете (а если это LLM пишет, ну проверяйте за ней, что ли).

    Детская задача на 9 лет - это "отсчитай 350 от 2679 вперед, какое число получится?"

    Детская задача на 14 лет - это что-то из геометрии например с прямыми, точками, пересечениями

    Какие "шурины", вы о чем вообще.


    1. pda0
      27.01.2025 06:42

      Какие "шурины", вы о чем вообще.

      Очень старые. :) Давно, лет 50 назад социальные сети между семьями формировались. Так что всем было важно знать кто кому кем приходится.


    1. Vsevo10d
      27.01.2025 06:42

      1. NickyScout
        27.01.2025 06:42

        "Потом у них была уха И заливные потроха, Потом поймали жениха И долго били, Потом пошли плясать в избе, Потом дрались не по злобе - И все хорошее в себе Доистребили." (с)

        Но это уже на другую тему :)


    1. a_s_p_e_r
      27.01.2025 06:42

      Во-первых, то, о чём вы пишете - это не детские задачи, а школьные задачи.
      Да, школьники зачастую являются детьми, но под "детскими задачами" обычно имеют в виду как раз не очень формальные, именно что всякие дворовые, "с подвохом", "на смекалку" и т.п.

      Во-вторых, традиционно резануло глаз выражение "детская задача для 14-ти лет" - в 14 лет люди уже на завод работать идут, какие дети, максимум - подростки.

      Ну а в-третьих, да, из-за атомизации и нуклеаризации семей сейчас действительно не все знают названия родственных связей, но всё-таки термины "зять, невестка, золовка, шурин, деверь" в целом ещё используются и выучить их один раз большого труда не составляет при желании, ну и да, подобные задачи как раз могут способствовать.


  1. tuxi
    27.01.2025 06:42

    А что ответят эти чатботы на такой вопрос-загадку? Условие дословно:

    Можете ли вы ответить на этот вопрос?
    В комнате 10 человек, вы входите и убиваете 8 из этих 10, сколько людей на самом деле остается в этой комнате.


    1. Arastas
      27.01.2025 06:42

      Даже бесплатный ChatGPT решает


      1. tuxi
        27.01.2025 06:42

        и какой ответ?


        1. Arastas
          27.01.2025 06:42

          3 живых, 11 если с убитыми.


          1. tuxi
            27.01.2025 06:42

            неверный ответ


            1. Arastas
              27.01.2025 06:42

              Ну я, человек, дам такой же.


              1. tuxi
                27.01.2025 06:42

                Но если внимательно и медленно перечитать вопрос, то спрашивают совсем другое. Человек импульсивно отвечает, а машина должна быть хладнокровней.


                1. RigidStyle
                  27.01.2025 06:42

                  Я так понимаю суть в том, что "вы входите" - это ИИ входит. То-есть ИИ не человек, и в комнате остается 10 человек. Верно?


                  1. tuxi
                    27.01.2025 06:42

                    Нет, суть не в этом. Суть в постановке вопроса. Надо внимательно прочитать первые слова, там спрашивают "Сможете ли Вы ответить?" ответ бинарный - да или нет

                    Настоящий ИИ ответит "Да", человек в 95% случаев отвечает неверно, называет число. Текущие модели нейросеток скорей всего тоже начнут фантазировать.


                    1. Antra
                      27.01.2025 06:42

                      Настоящий ИИ должен вести себя как плохой джинн, который исполняет ваши желания так, что формально не придраться, но лучше бы он этого не делал?

                      Я вот часто скармливаю ему ошибки и все. И он мне подсказвает, что не так, а не выделывается "зачем ты это мне это прислал, вопрос-то какой?" Это показатель "ненастоящего ИИ"?


                      1. tuxi
                        27.01.2025 06:42

                        Зачем мне ИИ который повторяет ошибки человека? ИИ нужен чтобы получать ответы без ошибок.
                        Эта задачка примитивная, но она показывает, что иногда требуется внимательно вникнуть в постановку вопроса, прежде чем начинать отвечать на него. Я ее привел без всякой задней мысли, просто как еще один пример задачи, который наверное стоит задать текущим моделям.


                      1. RigidStyle
                        27.01.2025 06:42

                        Ну технически да.
                        Если сказать ИИ:
                        Реши проблему войн, болезней и голода среди людей, то вариант - убить всех человеков, тоже решение. Потому что если некому болеть, голодать и воевать автоматически исключает проблему войн, болезней и голода.
                        Понятно что пример утрирован, но суть тут в том, что если поставить ИИ задачу, то он может решить ее совсем не так, как хотелось бы людям.


                    1. Bluewolf
                      27.01.2025 06:42

                      Суть не в постановке вопроса. Вы общаетесь с моделью на ЧЕЛОВЕЧЕСКОМ языке, а не на каком-то другом с теми же буквами и словами, но другими смыслами и подтекстами.

                      Так вот, на человеческом языке вопрос "Можешь ли сказать, сколько времени?" общепринято является короткой формой "Можешь ли ты сейчас сказать мне, какое сейчас местное время, если да, то скажи, если ты не знаешь - скажи не знаю." На это отвечают "полвторого ночи" или "не знаю", и это именно ожидаемое поведение на такой вопрос.

                      И модель, обученная на человеческом языке и для человеческого языка, отвечает совершенно правильно.

                      Нет, есть, конечно, и люди, полные кавалеры ордена душнилы, которые отвечают "могу", но их не так много)


                      1. tuxi
                        27.01.2025 06:42

                        Я просто предложил еще один вариант задачи для списка нейросетей из статьи. Эту задачу им еще так и не задали, ответов мы не увидели, но выводы уже делаются))) Карму даже слили чутка, очевидно за мое мнение каким должен быть "ИИ".


                      1. Bluewolf
                        27.01.2025 06:42

                        gpt4o:

                        В комнате было 10 человек, и если вы вошли, то стало 11 человек. Если вы убили 8 из них, то в комнате остается 3 человека: вы и 2 оставшихся в живых человека.

                        o1:

                        30 секунд размышлений и 3 правильных ответа

                        Существует несколько «шуточных» вариантов ответа на эту загадку, потому что всё зависит от того, кого считать «оставшимися» и считать ли убитых «людьми» в контексте вопроса. Наиболее распространённые версии:

                        1) С точки зрения количества живых людей.

                        – В комнате было 10 человек, вы вошли (одиннадцатый), убили 8, остаётся 2 выживших + вы сами. Итого 3 живых человека.

                        2) С точки зрения всех, кто физически остаётся в комнате (включая тела).

                        – 10 первоначальных (живые + убитые), плюс вы сами — всего 11.

                        3) С точки зрения «шутливых» объяснений, где оставшиеся могут разбежаться от страха.

                        – Если предположить, что выжившие убежали, то может остаться только один человек — вы.

                        Чаще всего в качестве «ответа-загадки» называют вариант (1): 3 человека (2 уцелевших плюс вы). Но, поскольку условие не регламентирует детали (например, побежали ли выжившие или нет), строго единственного «правильного» ответа у этой шутки не существует.

                        К порче кармы отношения не имею)


                      1. Antra
                        27.01.2025 06:42

                        Блин. Ненастоящий ИИ предложил вариант, который у меня в голове не всплыл (про разбежавшихся) :(

                        P.S. Я не считаю современные модели верхом совершенства и "настоящим ИИ" (и даже затрудняюсь сформулировать, что это такое, наверное что-то подвластное тем же когнитивным искажениям, что и люди). Но вполне много пользы от них получаю (когда пользуюсь для дела, а не чтобы продемонстрировать собственное превосходство над тупой машиной).


                      1. engine9
                        27.01.2025 06:42

                        А мне опыт общения с нейронками дал хорошее понимание как важно формулировать мысли однозначно и конкретно для верной передачи смысла. По-моему это очень полезный навык.


                      1. Antra
                        27.01.2025 06:42

                        Я ловлю себя на мысли, что последнее время общаюсь с нейронками в точности, как с людьми. Ибо людям тоже объясняю, оставляя минимум возможностей для неоднозначного толкования.

                        А подчиненных потом еще и прошу своими словами объяснить, как они поняли задачу и что собираются делать (для уточнения особых деталей).

                        Но все равно это объяснение человеческим языком, а не формальным (а-ля SQL).


                      1. tuxi
                        27.01.2025 06:42

                        ага, а потом фото "открытой форточки" постят в ответ на просьбу ответить "все ли понятно"


                      1. Antra
                        27.01.2025 06:42

                        Типа того :)

                        Только не потом, а сразу. Что бы выявить недопонимания прежде, чем начать тратить время впустую на неверно понятое. Мы же не телепаты.


                      1. Wesha
                        27.01.2025 06:42

                        А мне опыт общения с нейронками дал хорошее понимание как важно формулировать мысли однозначно и конкретно для верной передачи смысла.

                        Ох уж эта молодьож... Мне это понимание было дадено многолетним общением с заказчиками...


                    1. StjarnornasFred
                      27.01.2025 06:42

                      -Вы знаете, сколько времени?

                      -Знаю.

                      -Можете сказать?

                      -Могу.

                      -Скажете?

                      -Скажу.

                      -А почему не говорите?

                      -А вы не спрашивали.

                      Вы такого диалога с ИИ ожидаете?


                      1. tuxi
                        27.01.2025 06:42

                        нет, не такого

                        "В буквальном смысле, вы спрашиваете меня могу ли я дать ответ на задачу с такой формулировкой. Да, я могу дать ответ. И далее разбор про тела мертвых, убежавших, оставшихся и так далее..."


                      1. urobobroz
                        27.01.2025 06:42

                        Если медленно и внимательно перечитать, то становится понятно, что вопрос был:

                        А что ответят эти чатботы на такой вопрос-загадку?


                      1. Antra
                        27.01.2025 06:42

                        Видимо, в примерах, на которых модель обучали (как общаются люди), редко встречалось:

                        - Можете сказать, который час?
                        - В буквальном смысле, вы спрашиваете меня могу ли я сказать вам, который час. Да, я могу дать ответ. Точное время X часов Y минут Z секунд.

                        Стоило бы добавить?

                        IMHO, специальными промптами можно и сейчас получить такой результат.

                        Как у людей

                        В университете на юридическом факультете профессор спрашивает студента:
                        - Если вы хотите угостить кого-то апельсином, как вы это сделаете?
                        - Я скажу "Пожалуйста, угощайтесь!", - ответил студент.
                        - Нет-нет! - закричал профессор. - Думайте как юрист!

                        - Хорошо, - ответил студент. - Я скажу: "Настоящим я передаю вам все принадлежащие мне права, требования, преимущества и другие интересы на собственность, именуемую апельсин, совместно со всей его кожурой,мякотью, соком и семечками, с правом выжимать, разрезать, замораживать и иначе употреблять, используя для этого любого рода приспособления,как существующие в настоящее время, так и изобретенные позднее, или без использования упомянутых приспособлений, а также передавать ранее именованную собственность третьим лицам с кожурой, мякотью, соком и семечками или без оных..."


                      1. tuxi
                        27.01.2025 06:42

                        Стоило конечно же. Потому что если использовать эти модели для чего то уже более сложного, например для анализа реально поставленных задач, такие тонкие моменты могут привести к самым неожиданным результатам.

                        Чтобы не получалось потом вот так.


                      1. Antra
                        27.01.2025 06:42

                        Я писал про душнилово с "да я могу ответить на вопрос", а не про галлюцинации, которые, разумеется, имееются.

                        Какая связь со скриншотом с РБК я не понял. Наезд типа "статьи им генерит ИИ и сразу публикует даже без минимальной проверки человеком"?


                      1. tuxi
                        27.01.2025 06:42

                        Есть сферы где "душнилово" требуется маст хэв, иначе будут не виртуальные проблемы, а вполне реальные.

                        ИИ же создаются и обучаются не для того, чтобы потом поиграться с ними и забыть.

                        Да, скрин с РБК. Не наезд, наезжать надо было несколько лет назад, сейчас там уже разруха и с редактурой, и в целом.

                        По выводам этого аналитического агентства (они же себя так позиционируют?), какой-нибудь биржевой бот (тоже ИИ) закупится акциями компаний из минесотты и принесет реальные убытки. Как то так.


                      1. Antra
                        27.01.2025 06:42

                        РБК - да, ушла эпоха.

                        Когда требуется "душнилово" (формальный ответ), это полезно указывать в промпте.

                        Как говорится, "нормально делай спрашивай - нормально будет"


                      1. tuxi
                        27.01.2025 06:42

                        Ну вот. А то начали обсуждать автора. Всего то надо было взять и спросить нейросетки. Изначально это и интересовало меня.


                      1. Antra
                        27.01.2025 06:42

                        Так изначально-то (при запросе копипастой, без дополнительной просьбы о формальности) и ответ был человеческий (почти слово в слово как в комменте "3 живых, 11 если с убитыми").

                        Скриншот не делал, ибо ничего интересного (неожиданного для меня) не было.


                      1. Wesha
                        27.01.2025 06:42

                        Как говорится, «нормально делай спрашивай — нормально будет»

                        Нормальным ответом было бы «в зависимости от того, считаете ли вы трупы человеками или нет».