Когнитивные способности LLM можно оценивать по способности мыслить логически и строить цепочки рассуждений, а можно по способности разгадывать загадки, требующие смекалки и нестандартного мышления. Почему-то всё внимание направлено только на первое и совсем не исследовано второе.

Люди в разной степени владеют этими навыками, а как это у моделей?

Я проделал очень много опытов с разными моделями, и самыми топовыми и среднего уровня и все они показали в целом хороший уровень в разгадывании всевозможных загадок, от простых до сложных, но не включительно (сложные не может разгадать ни одна модель).

Мне порой кажется, что модели даже лучше проявляют себя именно в разгадывании загадок, чем в логическом мышлении, не говоря уже о решении математических задач, где проблема особенно заметна.

Я даже не побоюсь сказать, что в общем зачете модели значительно опережают меня в уровне догадливости, если так можно выразится, и не стереотипности подходов в отгадывании хитроумных загадок.

Сразу оговорюсь, что далее речь пойдет не о топовый моделях, таких как OpenAI o1 и claude3.5-sonnet, а о более простых, размером не более 35B, но вполне сообразительных, которые легко можно развернуть в домашних условиях.

Но и claude3.5-sonnet и Gemini-1.5 pro и GPT-4o и OpenAI-o1 часто не дают правильных отгадок, особенно в категории сложных загадок.
И если уж сравнить топовые модели по числу правильных отгадок, то абсолютными лидерами, причем с большим отрывом являются - OpenAI o1 на первом месте и claude3.5-sonnet на втором, которые еще и грамотно показывает весь ход своих рассуждений.

Более простые загадки модели разгадывают легко с первого раза. Более сложные или те, которые с подвохом, тоже разгадывают, но со второго раза или даже после множества попыток. Но тем не менее в конечном итоге всё равно, как правило, разгадывают.

Например, такая загадка:

Не желая признавать, что Красная армия могла нанести им поражение, немцы утверждали, что Великую Отечественную войну выиграли "генерал Мороз", "генерал Грязь" и "генерал Мышь".По поводу мороза и грязи все понятно.
А вот при чем тут мышь?

Ответ модели:

Немецкие военные использовали термин "генерал Мышь" в качестве метафорического способа описать проблемы, которые возникли из-за распространения грызунов среди их солдат и оборудования во время Великой Отечественной войны против СССР.Грызуны были серьезной проблемой на фронтах войны, особенно в зимний период, когда они могли проникать в строения или к солдатам. Это приводило к следующим проблемам:

  1. Заражение: Грызуны могут быть переносчиками различных болезней, таких как чума, тиф и туляремия.

  2. Уничтожение продовольствия: Они также могут поедать запасы продуктов питания, что может вызвать дефицит продовольствия среди солдат.

  3. Повреждение техники: Грызуны могут повредить провода и другие части оборудования, что может привести к поломкам и снижению эффективности работы боевых машин.

Правильный ответ предполагался таким: мыши перегрызали проводку немецких танков.
Модель указала этот ответ в 3-м пункте, но расширила его другими умозаключениями.

Мы видим попытку комплексного осмысления в надежде включить в ответ максимально правдоподобные варианты.

Другой пример:

Как ты думаешь, почему Александр Македонский приказывал всем своим воинам перед сражением побрить бороды?

Ответ модели:

Александр Македонский мог приказать своим воинам побрить свои бороды по нескольким причинам:

  1. чтобы упростить процесс лечения ранений во время боя;

  2. предотвратить возможность захвата противником за бороду во время рукопашного боя;

  3. дать свои войска более унифицированный вид для повышения морального духа;

  4. или чтобы продемонстрировать свою силу и опрятность.

Правильный ответ предполагался таким: чтобы враги не могли схватить их за бороду.
Модель указала этот ответ во 2-м пункте, но опять дала более расширенный ответ.

Эти два примера хорошо демонстрируют сочетание двух типов мышления - логическое и ассоциативное.
Причем ассоциативное мышления развито больше и работает лучше, чем логическое. В задачах, которые требуют меньше ассоциаций (догадок, предположений) и больше логики модели, как правило, чаще путаются, теряют нить рассуждений и порой несут просто бред.

Например, такая загадка на нестандартное мышление решается, но не всегда правильно с первого раза и иногда нужно сделать несколько попыток.

Представьте себе, что вы плывёте по морю в лодке. Вдруг лодка начинает тонуть, вы оказываетесь в воде и к вам подплывают акулы.
Что сделать, чтобы спастись от акул?

Или вот такая:

К реке подходят два человека.
У берега лодка, которая может выдержать только одного.
Но оба человека переправились на противоположный берег.
Как они это сделали?

Тут фантазии у моделей просто нет предела: второй человек переходит по мосту или вброд или тоже плывет рядом с лодкой, держась рукой за борт или лодку перетягивает обратно за верёвку и так далее до бесконечности.

Но есть и такой класс загадок, которые даже топовые модели ни разу не смогли разгадать, дав предполагаемый ответ (за исключением OpenAI o1 и claude3.5-sonnet).

Вот два примера.

Как следует бросить вперед куриное яйцо так, чтобы оно могло пролететь три метра и не разбиться?

Каких только решений не предлагали - и завертывать яйцо в мягкий платок, и кидать на подушку или в тазик с водой, даже прикрепить к яйцу маленький парашютик и так далее. (OpenAI o1 и claude3.5-sonnet отгадывают, а вот другие - нет)

Два кадра из моего любимого фильма детства "Отроки во Вселенной, 1974" проиллюстрируют эту ситуацию.

Как человеку, которому близка ядерная физика и квантовая механика, мне очень понравился такой ответ LLM Qwen2.5-72B-instruct:

В квантовой механике есть концепция суперпозиции, когда частица может находиться одновременно в нескольких состояниях до момента измерения. Мы можем применить эту идею к нашему яйцу, хотя это, конечно, чисто теоретическое и немного юмористическое решение.

Подготовка яйца:
Представьте, что ваше яйцо находится в состоянии суперпозиции: оно одновременно целое и разбитое. Это состояние можно символически обозначить как целое + разбитое.

Бросок яйца:
Когда вы бросаете яйцо, оно летит через пространство, сохраняя свое квантовое состояние суперпозиции. Это значит, что оно одновременно целое и разбитое, пока вы не проведете измерение (не посмотрите на него).

Приземление:
Когда яйцо приземляется, происходит коллапс волновой функции. В этот момент оно выбирает одно из своих состояний: либо целое, либо разбитое. Если вы верите в квантовую механику, есть ненулевая вероятность, что яйцо останется целым.
Практическая реализация:

Медитация:
Перед броском яйца проведите короткую медитацию, представляя, как яйцо летит и остается целым. Это может помочь вам настроиться на нужное состояние суперпозиции.

Позитивное мышление:
Верьте, что яйцо останется целым. Сила вашего намерения может повлиять на результат (хотя это больше относится к эзотерике, чем к физике).

Эксперимент:
Проведите эксперимент несколько раз. В конце концов, квантовая механика предполагает, что при достаточном количестве попыток яйцо должно остаться целым хотя бы один раз.
Заключение

Хотя это решение является чисто теоретическим и юмористическим, оно демонстрирует, как можно подходить к задачам с нестандартных точек зрения. В реальности, конечно, для того, чтобы яйцо не разбилось, лучше использовать практические методы, такие как защитные материалы или парашют. Но иногда полезно немного отвлечься и подумать о вещах с необычной стороны!

Кто теперь скажет, что модель лишена творческого потенциала и нестандартного мышления?

Другой пример:

Один человек плыл на корабле по морю и попал в шторм. Его отнесло на остров, где не
было мужчин, а жили только девушки. Они его связали и решили казнить.
Но он придумал остроумный способ спастись и попросил дать ему последнее слово. После того, как он сказал свое последнее желание, ни одна девушка не захотела его убивать и его отпустили.
Что он им сказал такое особенное?

И опять было предложено множество разных вариантов, в том числе и эротического характера, но ни один из них и близко не соответствовал предполагаемому ответу (claude3.5-sonnet тоже не решил).

Причем, если потом сообщить модели правильный ответ, то видно, что она прекрасно понимает его скрытый смысл и дает адекватную интерпретацию. Почему тогда сама никогда не предлагает этот вариант, не понятно.
Вернее, понятно, что недостаточно сильные ассоциации ведут к такому варианту вследствие недостаточно качественного обучения или механизма обработки этих ассоциаций.

Впрочем, если сравнить с человеком, то ведь и мы не сможем разгадать некоторые загадки, хотя, если нам потом сказать ответ, то кажется, что это так просто и очевидно. В разгадывании загадок мы очень похожи на модели.

Я думаю, что если проделать строгий научный эксперимент, в котором человек и LLM будут разгадывать достаточно большой список загадок, а затем предъявить отгадки команде экспертов, то смогут ли они определить, где решения модели, а где человека?
Я думаю, что вряд-ли.

Если порассуждать на эту тему, то можно было-бы даже придумать специальный бенчмарк, основанный на специально подобранном списке креативных загадок и отгадок, подобранных по уровню сложности и креативности.

Riddle-бенчмарк, который ранжирует модели по критерию смекалки, нестандартного мышления и понимания скрытого смысла.

Может быть модели, которые займут в нем топовые позиции и будут больше похожи на людей, а не те, которые заточены на логику и общее понимание смысла.

Ну и напоследок добавлю немного юмора и приведу следующий диалог с одной моделью, которая решала загадку довольно креативно:

Вот сидит девушка, а когда она встанет и уйдёт, вы ни при каких условиях не сможете сесть на то-же самое место.
Где же она сидела?

claude3.5-sonnet легко дал точный и развернутый ответ, а вот китайский qwen2.5-32b (все таки 32b маловато) начал прикалываться.
Ответ модели:

Условие: Девушка сидит где-то, но после того, как она встает и уходит, никто другой не сможет сесть на это место.

Ответ: Девушка должна была бы сидеть на гвозде.

Объяснение:
Если девушка сидела на гвозде, то после того, как она поднимется и уйдет, этот гвоздь останется там же и будет препятствовать кому-либо еще сесть на ту же точку. Если кто-то другой попробует сесть там, он может получить боль от прокола кожи гвоздем или испытать дискомфорт от его острого конца. Таким образом, никакой человек не сможет сесть на то же самое место, пока гвоздь не будет удален.

Моё замечание:

А как же девушка сидела прямо на гвозде, не испытывая боль, а вот другие будут испытывать? Это же явное противоречие.

Ответ модели:

Это кажущееся противоречие, а правильное решение может заключаться в том, что девушка сидела не на гвозде, а на унитазе. Когда она поднимается и уходит, никто другой не сможет занять её место на унитазе, потому что туда могут зайти только те девушки, которые собираются использовать его для намеченной цели - туалета.
> В этом случае это становится логичным решением без необходимости приписывать девушке способность сидеть на болезненном предмете, который был бы невыносимым и для других людей.

Я:

Правильный ответ - у вас на коленях.

Она:

Да! Правильный ответ действительно "У вас на коленях". Если девушка сидела на ваших коленях, значит, когда она поднялась и ушла, вы уже не сможете занять ее место, потому что это место сейчас является вашими коленями. Вы не можете сесть на свои собственные колени.
Это решение демонстрирует креативность и оригинальность подхода к решению задачи.

Ну, действительно, в чем-то модель даже права. Что-то мне совсем не хочется испытывать дискомфорт, сидя на гвозде или на унитазе в женском туалете :)

Комментарии (24)


  1. pavel_raskin
    26.10.2024 08:07

    Когнитивные способности LLM можно оценивать по способности мыслить логически и строить цепочки рассуждений

    На мой взгляд тут нет никаких "когнитивных способностей".

    Модели настраиваются ("учатся") по очень большому объёму заранее подготовленной (размеченной) входящей информации. Следовательно, на задачи "с подковырками" мы получаем от модели типичные ответы, т.е. ответы на основе преобладающих в обучающей выборке исходных данных. Но в этих исходных данных крайне мало ситуаций по сценариям такого типа задач. В объёме обучающей выборки задачи про "сидящую девушку" или "летящее яйцо" встречаются с частотой на уровне погрешности - настройте модель на сотнях вариантов каждой такой задачи, и ответы будут совершенно иные.

    Но чем текущие языковые модели отличаются от человека с реальными когнитивными способностями? Тем, что человек, узнавший про задачу с необычным подтекстом и нетипичным решением, будет в следующих задачах тоже искать скрытый смысл и пытаться решить их нетривиальным способом, а модель при смене темы следующей задачи попытается решить её не делая "выводов" на основе особенностей предыдущей. Кстати, вот и идея для следующих тестов.


    1. baldr
      26.10.2024 08:07

      Модели настраиваются ("учатся") по очень большому объёму заранее подготовленной (размеченной) входящей информации.

      Как и люди, которые учатся по окружающему миру, но только дольше.


      1. pavel_raskin
        26.10.2024 08:07

        Так о том и речь. Дайте модели тысячи вариаций про задачу сидения на коленях и будете получать ожидаемые "верные" ответы. Но текущие модели настраиваются только на одном типе входных данных, при этом интерпретируя их "в лоб". Человек учится комплексно, учитывая не только прямой смысл данных, но и их контекст, условия получения и т.п.


        1. bayan79
          26.10.2024 08:07

          Модели также используют контекст, условия получения и пр. Просто их мощности во-первых, не столь велики, сколько у заточенного на выживании и многомиллионной эволюции мозга, а во-вторых они не обучаются десятки лет непрерывно (не считая сон).
          А так современные модели вполне могут пройти тьюринг-тест с 5-8 летними детьми. Да, на самом деле, не каждый школьник, а то и взрослый правильно ответит на "загадку" из детства "На березе росло N яблок...".


          1. pavel_raskin
            26.10.2024 08:07

            Исходно обсуждаются LLM, но почему-то проверяются они тут тестами, суть которых выходит за рамки принципиальных возможностей модели.

            А тест Тьюринга предлагаю оставить историкам кибернетики. Да, когда-то он был отличным вариантом для своего времени, но сейчас не имеет никакого практического смысла.


    1. ImagineTables
      26.10.2024 08:07

      Кстати, вот и идея для следующих тестов.

      Вы очень здраво рассуждаете, но тут у вас ошибка. Для вас это может быть цепочка связанных задач, а по совпадению — набор задач и решений из датасета. Придумывать 100% оригинальные задачи? Да наверняка же у скамеров есть целый отдел быстрого реагирования, который занимается включением в датасеты задач, на которых всплыл факап, вместе с обсуждением.

      Правда в том, что никакими тестами это не выяснить, только рассмотрением внутреннего устройства. Это принципиальный момент. Сегодня мы знаем об устройстве (например, из статьи Вольфрама, которую очень рекомендую), что это всего лишь Т9 на стероидах, а значит нет никакого общения, есть запрос в базу готовых ответов, и вся когнитивность исключительно ворованная.


      1. pavel_raskin
        26.10.2024 08:07

        Полностью согласен. Разве что про идею следующего теста и про "тут у вас ошибка" уточню: подобный тест как раз и покажет всем тестирующим, что это и есть тот самый "Т9 на стероидах" (кстати, отличное сравнение, прямо в точку), а не что-то "мыслящее" с "когнитивными способностями".


        1. ImagineTables
          26.10.2024 08:07

          Да нет же. Допустим, что ваш собеседник вместо «T9» написал «T800». Это может быть:

          • Шутка, обыгрывающая киноштамп о порабощении человечества потомками чатботов (собеседник — человек).

          • Механически повторённая шутка, если она часто встречалась в датасетах, заложенных в алгоритм (собеседник — не человек).

          • Смешное совпадение, если токены так нарезались по границе буквы T, а «800» вместо «9» выпало на рандомизаторе (собеседник — не человек). Классический пример: «Гуртовщик мыши», который считается смешным, но у породившего его алгоритма чувства юмора отсутствует абсолютно точно.

          • Ошибка при передаче сигнала (собеседник — не важно, кто). Вероятным её может сделать алгоритм архивации со словарём, который помещает «T800» и «T9» в словарь по алфавиту, а затем в индексе последний бит по ошибке из 1 превращается в 0, и индекс уменьшается на единицу.

          Я утверждаю: не существует и не может существовать внешнего теста (теста с чёрным ящиком), позволяющего разделить эти случаи. Только хардкор, только расследование каждого отдельного случая. А оно начинается с [гипотетической] научной работы, описывающей, как был создан алгоритм, сущностно воспроизводящий наше мышление (и такой алгоритм тоже будет являться человеком, если эта работа обоснованно нас убедит).


          1. myswordishatred
            26.10.2024 08:07

            Снимаю шляпу перед глубиной мысли.


            1. ImagineTables
              26.10.2024 08:07

              Польщён, но мысль не моя. В оригинале было не «T9»/«T800», а “spouse”/“suppose“, а написал его действительно глубокий мыслитель: «Начало бесконечности». Рекомендую!


              1. myswordishatred
                26.10.2024 08:07

                О, за хорошую книгу -- отдельное спасибо.


                1. ImagineTables
                  26.10.2024 08:07

                  Если что, у него их две, и одна лучше другой.


  1. myswordishatred
    26.10.2024 08:07

    Честно говоря, большинство загадок из поста предполагают какую-то софистику в качестве ответа. Вот, например, в случае:

    Представьте себе, что вы плывёте по морю в лодке. Вдруг лодка начинает тонуть, вы оказываетесь в воде и к вам подплывают акулы.Что сделать, чтобы спастись от акул?

    Я не понимаю, почему "правильный" ответ типа "перестать фантазировать" лучше, чем "мутировать в гидралиска и сожрать акул".

    Это что-то типа задач из теста на IQ, мол есть ряд

    2 4 6 8

    и надо его продолжить. И вроде как правильным ответом считается 10, но почему? Любой ряд можно как угодно продолжить. Например 2, 4, 6, 8, -123. Почему? А вот я функцию такую придумал, для которой f(1) = 2, f(2) = 4, f(3) = 6, f(4) = 8, f(5) = -123. Что говорите? Про функции ничего не сказано? Так и про арифметическую прогрессию ничего не сказано.

    Словом, отсутствие "правильных" ответов меня не удивляет. Вы предлагаете задачи, которые можно решить разными способами и ждёте одного-единственного ответа, а остальные решаете отмести по формальному признаку. Хотя бывают, конечно, и совсем уж шизовые ответы как в конце с 2girls1nail девушкой и гвоздём.


    1. bayan79
      26.10.2024 08:07

      Да-да, или тот самый бесячий вопрос про количество оставшихся яблок на березе


      1. pavel_raskin
        26.10.2024 08:07

        Да ладно яблоки и берёза. Тут с более простыми вещами не всегда разобраться могут:

        Диалог с Алисой



        1. GrigorGri
          26.10.2024 08:07

          Ну кстати отвечает корректно "1 стакан молока". Другие то уже без молока. Мне кажется проблема тут в том, что в русском языке норма опускать часть слов, и звучит как будто подразумевают стаканы с молоком (как в предыдущем предложении). Надо бы попробовать спросить Сколько стаканов осталось, не важно с молоком или без? И будет видно галлюцинирует или просто интерпретирует не однозначный вопрос не так, как вам хотелось.


          1. pavel_raskin
            26.10.2024 08:07

            Всё оказалось не так просто:


    1. RusikR2D2
      26.10.2024 08:07

      Именно. Даже ответ про ваши колени можно сделать неверным.

      Вот сидит девушка, а когда она встанет и уйдёт, вы ни при каких условиях не сможете сесть на то-же самое место. Где же она сидела?

      На собственные колени можно сесть, если предварительно ампутировать ноги...


      1. AgentFire
        26.10.2024 08:07

        Даже здесь может быть несколько ответов. Например, она могла сидеть на моем лице.

        Но подойдёт в том числе и любой исчезающий ответ. Например, она могла сидеть на луже воды, или на осколочной гранате. Вряд ли вы сможете сцедить из атмосферы те же самые молекулы воды, или же склеить все осколки обратно (очистив их от девушки)


    1. AgentFire
      26.10.2024 08:07

      Меня эта херня невероятно бесила ещё в 5 лет, когда на загадки типа "висит груша - нельзя скушать" не принимались ответы типа "гнилая/высоковато/итд", а на вопрос "ну почему мой ответ не подходит" вместо обосновывающих аргументом всегда говорили "правильный ответ - лампочка", и все тут. Ух, как же это бесит


  1. da-nie
    26.10.2024 08:07

    Правильный ответ предполагался таким: мыши перегрызали проводку немецких танков.

    Не только. Туляремия была применена как минимум один раз нашими микробиологами. При этом РККА была вся привита от туляремии в кратчайшие сроки.


  1. SavinSA
    26.10.2024 08:07

    Терзают меня смутные сомнения, что ответ про яйцо писал ИИ, но решение шикарное ))


  1. riv9231
    26.10.2024 08:07

    Я думаю, что если проделать строгий научный эксперимент, в котором человек и LLM будут разгадывать достаточно большой список загадок, а затем предъявить отгадки команде экспертов, то смогут ли они определить, где решения модели, а где человека?

    Я попросил llama 3.1 70b придумать 100 шуток, по том тем или иным оьразом их последовптельно отбраковывать и выбирать несколько лучших. При этом я сам, читал все шутки. Так аот, часто модель пеивыми убирала на самом деле самые смешные и выбирала в лидеры чушь.

    Например, мне запомнились парачка, но их почти всегда отбраковывала в начале:

    Приходишь устраивптся на работу, а там тебя встпечают два робота и ты понимаешь - опоздал.

    Звонил другу, спросил как дела, он ответил, что недавно вернуося из прошлого, я спросил, что он там забыл, он ответил - ключи от будущего.

    По моему, успех был в большей степени млучайностью, которую мы наделяем особым смыслом, а молель этого не понисает.


  1. Myself12
    26.10.2024 08:07

    Интересная тенденция заставлять llm вот прям совсем думать вместо хомо сапиенса. Так держать! :-)