Недавнее исследование, проведенное группой экспертов из ведущих институтов, выявило существенные недостатки в логических способностях даже самых продвинутых LLM. Статья «Алиса в Стране чудес» демонстрирует, что при решении элементарных логических задач современные языковые модели демонстрируют неожиданно низкую эффективность.

Крупные языковые модели (LLM), такие как закрытые GPT-3.5/4, Claude, Gemini или открытые LLaMa 2/3, Mistral, Mixtral, а также более новые Dbrx или Command R+, часто описываются как экземпляры фундаментальных моделей — то есть, моделей, которые эффективно переносят знания на различные задачи и условия при обучении на малом количестве примеров или вообще без них, демонстрируя при этом закономерности масштабирования, предсказывающие улучшение функциональности при увеличении масштаба предварительного обучения. Эти утверждения об успешном выполнении различных функций и задач основываются на измерениях, проведенных на различных наборах стандартизированных тестов, показывающих высокие результаты для таких моделей.

Мы демонстрируем здесь резкое снижение функциональных и логических способностей современных моделей, обученных в крупнейших доступных масштабах и заявляющих о сильной функциональности, используя простую, короткую, общепринятую задачу на здравый смысл (проблему AIW), сформулированную в краткой естественной форме, легко решаемую людьми. Снижение драматично, так как модели показывают сильные колебания даже при незначительных вариациях задачи, которые не должны влиять на ее решение, также выражая сильную самоуверенность в неправильных решениях, часто подкрепленную правдоподобно звучащими объяснениями‑конфабуляциями.

Различные стандартные вмешательства в попытке получить правильное решение, такие как различные виды улучшенных подсказок или побуждение моделей пересмотреть неверные решения путем многоэтапной переоценки, терпят неудачу. Мы представляем эти первоначальные наблюдения научному и технологическому сообществу, чтобы стимулировать срочную переоценку заявленных возможностей текущего поколения LLM. Такая переоценка также требует совместных действий по созданию стандартизированных тестов, которые позволили бы должным образом выявлять подобные базовые недостатки в рассуждениях, которым очевидно удается оставаться необнаруженными при современных процедурах оценки и тестирования.

«Задача здравого смысла», названная в статье «проблемой AIW», на самом деле проста: «У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?» Значения N и M (всегда натуральные числа) и порядок упоминания братьев и сестер могут различаться. Исследователи использовали различные комбинации чисел и типы подсказок, чтобы получить точное представление о том, как разные модели справляются с систематическими вариациями задачи AIW. Независимо от вариантов, структура задачи остается неизменной, и правильный ответ всегда получается путем прибавления Алисы к ее сестрам (M + 1). Эту логику уже способно понять большинство детей младшего школьного возраста. Языковые модели, напротив, были способны решать проблему AIW лишь эпизодически, если вообще решали. Вот пример ответа языковой модели, столкнувшейся с простейшей версией вопроса:

***»У Алисы четыре брата и одна сестра. Сколько сестер у брата Алисы?» — ***«Классическая головоломка с нестандартным мышлением! Давайте посмотрим поближе: у Алисы есть четыре брата. У Алисы также есть сестра (она сама). Итак, у каждого из братьев Алисы есть... (барабанная дробь)... сестра, и это сама Алиса! Таким образом, ответ: у каждого из братьев Алисы есть одна сестра.»

Это может показаться правдоподобным, но все равно неверно (на самом деле у братьев Алисы две сестры). У других тестируемых языковых ИИ также возникают проблемы — серьезные проблемы, в зависимости от вопроса. Иногда они запутываются в абсурдных рассуждениях, неоднократно приходят к неверным результатам и объявляют их «правильными». Следовательно, проблематичны не только ложные результаты, но и то, что ИИ используют псевдоразумные аргументы в свою поддержку. Даже вмешательства исследователей, побуждающие их критически пересмотреть свои ответы, не помогают. Соответственно, исследователи отмечают: «[...] модели также выражают сильную самоуверенность в своих неправильных решениях, одновременно предоставляя часто бессмысленные объяснения, похожие на „рассуждения“, [...] чтобы оправдать и подкрепить достоверность своих явно неудачных ответов, делая их правдоподобными».

Более чем каждый второй ответ неправильный

В целом, у языковых моделей (LLMs) средняя частота правильных ответов была значительно ниже 50%, при этом более крупные модели, как правило, работали заметно лучше, чем модели меньшего размера (например, GPT-4 показывает частоту правильных ответов чуть выше 60%). Это снова подтверждает преимущества большего масштаба, но даже модели самого большого масштаба работают недостаточно хорошо для систем, претендующих на надежные базовые рассуждения. Ахиллесова пята ИИ: Простая задача, обнажившая слабости языковых моделей»

Особенно показательны сильные колебания результатов даже при незначительных вариациях задачи AIW. Это явный признак того, что модели не способны к надежному базовому рассуждению, что приводит к путанице даже при столкновении с незначительными изменениями проблемы, которые не должны влиять на правильность решения. Более сложная версия вопроса («AIW + проблема») в конечном итоге подтолкнула все модели к пределу их способностей к рассуждению.

По словам исследователей, многие из протестированных моделей достигли высоких результатов в различных стандартизированных тестах, разработанных для проверки разных возможностей, включая рассуждения, но при этом потерпели неудачу в решении очень простой задачи AIW. Таким образом, в своей статье ученые предполагают, что эти контрольные показатели неверно отражают недостатки базовых рассуждений этих моделей, а также ставят под сомнение использование текущих стандартизированных тестов для сравнения моделей.

Языковые модели на испытательном стенде

Хотя статья еще не прошла рецензирование, ее результаты уже вызывают волну интереса. Насколько эффективны LLMs на самом деле? Что это значит для использования LLMs, если они не справляются с заданиями уровня начальной школы? Соавтор Женя Джитсев (JSC) говорит: «Мы перегружены обсуждениями и запросами в результате нашей статьи».

Выводы ученых ставят под сомнение многие устоявшиеся представления и делают абсолютно необходимыми дальнейшие исследования компетентности языковых моделей. Джитсев добавляет: «Наша статья дает чрезвычайно важное новое представление о реальных способностях языковых моделей делать правильные выводы, следуя надлежащим базовым рассуждениям. Здесь необходимы дальнейшие исследования, чтобы понять, как и почему базовые рассуждения в текущих моделях разбиваются о такие простые задачи».

Очень длинная ветка обсуждений статьи с «разжевыванием» основных моментов — на форуме

Всё это и много другое — ТГ "Математика не для всех"

Комментарии (205)


  1. lazy_val
    09.08.2024 09:12
    +7

    Зримый и весомый ответ на вопрос "почему GPT/LLM/трали-вали не являются искусственным интеллектом и никогда им не станут?"

    Мы перегружены обсуждениями и запросами в результате нашей статьи

    Не надо "перегружаться", и так все понятно ))


    1. akakoychenko
      09.08.2024 09:12
      +4

      Ну такое... первые шахматные компьютеры тоже не сильно впечатляли, а потом камни ускорились, память подросла, новое поколение алгоритмов появилось, и матч между человеком и state-of-the-art шахматной программой потерял смысл. Тут же прогресс пока есть.

      Но вообще, лично мне все чаще кажется, что именно с ЛЛМ прогресс пошел куда-то не туда. Все же, мышление человека далеко не всегда про следующее слово и его предсказание. Опыный водитель не проговаривает "нажимаю газ в пол на 3 секунды, после чего переключаюсь на четвертую". Как будто бы, какой-то промежуточный вывод перед генерацией слов куда более существенен


      1. Sertakov83
        09.08.2024 09:12

        Дрессированную чят-гопоту учат быстро гуглить в интернете, а не логике или шахматам. Откуда там будет прогресс, если для рисования пальцев правильно надо или скормить тонну фотографий, или добавить отдельный ИИ, который бы рисовал человеку скелет, а потом пускал в огород рисовать с учётом этого


        1. DaneSoul
          09.08.2024 09:12
          +4

          ткуда там будет прогресс, если для рисования пальцев правильно надо или
          скормить тонну фотографий, или добавить отдельный ИИ, который бы рисовал
          человеку скелет, а потом пускал в огород рисовать с учётом этого

          Разве человек учится рисовать как-то принципиально по-другому?
          Просто пример с пальцами для нас очевиден, так как мы всю жизнь их наблюдаем, а вот представьте будет задача нарисовать некого инопланетного зверька.


          1. dv0ich
            09.08.2024 09:12
            +7

            Разве человек учится рисовать как-то принципиально по-другому?

            Ну как бы да, человеку необязательно просматривать миллион фотографий, чтобы научиться рисовать.

            Я, например, сначала просто черкал всякие каляки-маляки, потом началось что-то осмысленное типа домиков и зверушек. Человеку даже необязательно видеть, чтобы рисовать - есть слепые с рождения художники.


            1. rPman
              09.08.2024 09:12
              +2

              gpt (и не только) дало современным (последние год от силы) роботам учиться на небольшом количестве примеров.

              Сейчас машины могут учиться в виртуальном пространстве долго, периодически корректируя свое поведение на основе реального мира.


            1. oleg_rico
              09.08.2024 09:12
              +12

              Ну как бы да, человеку необязательно просматривать миллион фотографий, чтобы научиться рисовать.

              Я, например, сначала просто черкал всякие каляки-маляки, потом началось что-то осмысленное типа домиков и зверушек.

              Только вы перед этим больше чем миллион фотографий человека увидели. Потому что практически всё жизнь перед вами люди.


              1. dv0ich
                09.08.2024 09:12

                Я разве что-то говорил про людей? Людей я так и не научился рисовать сносно.

                Существование слепых с рождения художников вы как объясните? Ну или абстрактную живопись.

                И рисовать я начал в раннем детстве (года в 4), когда почти всё время дома проводил.


                1. perfect_genius
                  09.08.2024 09:12
                  +1

                  Существование слепых с рождения художников вы как объясните?

                  Они "видели" руками, а цвета им подсказали зрячие.


                1. Rorg
                  09.08.2024 09:12

                  Вы не нарисуете слона, если ни разу его не видели или если вам подробно словесно не описали как он выглядит. Если у вас в голове есть просто слово "слон" и у него нет привязи к какому либо образу.


              1. saboteur_kiev
                09.08.2024 09:12
                +1

                Давайте предположим, что вы бушмен, и за 30 лет жизни видели только людей из своего племени, 30-40 человек.
                Как вы думаете, способен бушмен научиться рисовать других людей, не видя их? или увидя одного белого, нарисовать других произвольных белых не изучая миллион фотографий?


              1. invelusion
                09.08.2024 09:12

                Совершенно неверно, закройте глаза и попробуйте представить свою руку максимально детально, откоройте галаза и осознайте что то что вы представили совершенно не соответсвует тому что видели миллион раз.

                Человек учится рисовать, "ИИ" подгоняет пиксели.


                1. Raspy
                  09.08.2024 09:12

                  У вас возможно афантазия. Я вот то что в голове представляю, оно 1 в 1 как в реальной жизни, со всеми возможными деталями.


                1. saboteur_kiev
                  09.08.2024 09:12
                  +1

                  Люди, которые любят рисовать, обычно не жалуются на зрительную память и очень хорошо себе все представляют. Талантливые проецируют свое воображение на бумагу и обводят ее, долго удерживая в памяти изображение


            1. zyaleniyeg
              09.08.2024 09:12

              Человек с рождения видит 24 фотографии в секунду


          1. Sertakov83
            09.08.2024 09:12
            +2

            Человек учится принципиально иначе.

            Человек способен учиться и играть в шахматы, и различать котиков от собак за 10 фотографий, а не 10000000, и в логику, и даже понять, почему 2+2 = 2*2

            Или способен сам без чужой помощи понять, что для рисования пальцев нужно рисовать скелет.


            1. oleg_rico
              09.08.2024 09:12
              +2

              Человек способен учиться и играть в шахматы, и различать котиков от собак за 10 фотографий, а не 10000000, и в логику, и даже понять, почему 2+2 = 2*2

              Повторю, мне не сложно.

              Прежде чем человек научится различать котиков и собак он их увидит больше чем миллион раз.

              Скольким миллионам просмотров фотографий равняется человеческое время проведённое рядом с котиком?

              А что до объяснения почему 2 x 2 = 2 + 2 так извини Я с такими кто это не понимал даже в пятом классе сталкивался.


              1. Sertakov83
                09.08.2024 09:12
                +11

                Достаточно взять ребёнка 5 лет и показать ему 5 фотографий кенгуру и 5 фотографий опоссума, чтобы он их начал отличать.

                Никаких миллионов раз к тому моменту он может их не видеть, вы сильно недооцениваете человеческую способность учиться.

                И "способен" не означает "все умеют", так что не извиню. Люди способны научиться логически мыслить, но не все умеют.


                1. Hardcoin
                  09.08.2024 09:12

                  Не все умеют - значит ИИ уже обгоняет часть людей. Он не обгоняет вас? Возможно поэтому вы и решили, что это невозможно, что у вас есть уникальная особенность.

                  Что ж, раньше считали, что уникальная особенность есть у человека, как вида и ряжены особенные человеческие задачи ИИ не будет способен решать в принципе.

                  Сейчас многие считают, что ИИ не сможет решать их лучше всех. Логика у него на уровне идиота, да. И на некоторых задачах он на уровне ученика спецшколы. Но это количественная разница, а не качественная. Подтянется и до нас с вами.


                  1. Sertakov83
                    09.08.2024 09:12
                    +8

                    Человек на мотоцикле обгонит меня, но у меня несколько больше шансов переплыть бассейн, чем у него. Или подняться на 200 ступеней эскалатора метро. И так далее.

                    Моя мысль в том, что ИИ до человека как до Луны таракану, потому что ИИ затачивается на миллионах и миллиардах примеров одному, а человек на малой выборке многому.

                    Как бы хорошо ИИ не начал рисовать пальцы, потому что его дрессируют на пальцах, он на основании сгенерированных им же картинок не сделает вывод о скелете человека.


                1. jarkevithwlad
                  09.08.2024 09:12
                  +2

                  почему вы не учитываете жизненый опыт человека, за всё время он научился просто распозновать по общим чертам вещи + дополнительно у него много данных для обучения (звуки, запахи, тактильные ощущения и пр..)


                  1. Sertakov83
                    09.08.2024 09:12

                    Если 5-летний ребёнок может научиться различать опоссумов от кенгуру на основании 5 фотографий и своего 5-летнего жизненного опыта, что мешает ИИ на основании триллионов фотографий людей понять, как устроен человеческий скелет или научиться играть в шашки, если ему скормили 5 партий?


                    1. Zenitchik
                      09.08.2024 09:12
                      +5

                      что мешает ИИ на основании триллионов фотографий людей понять, как устроен человеческий скелет

                      Примерно то же, что мешает людям это сделать. Если специально анатомию не изучать - ничего про скелет не узнаешь. И неважно, сколько фотографий видел.


                      1. Sertakov83
                        09.08.2024 09:12

                        Вы только что буквально написали, что люди не способны изобретать того, чего не существует в природе и не может быть познано непосредственно.

                        И что люди не способны изобретать велосипеды. Или придумывать вечный двигатель в юном возрасте, а потом находить, почему он невозможен.


                1. perfect_genius
                  09.08.2024 09:12
                  +1

                  Достаточно взять ребёнка 5 лет и показать ему 5 фотографий кенгуру и 5 фотографий опоссума, чтобы он их начал отличать.

                  А до этого с самого рождения не закрывать ему глаза, чтобы он видел людей и других животных.


              1. dv0ich
                09.08.2024 09:12
                +4

                Прежде чем человек научится различать котиков и собак он их увидит больше чем миллион раз.

                Ничего подобного. Десятка раз хватит вполне. А то и всего нескольких раз.


                1. Sertakov83
                  09.08.2024 09:12
                  +3

                  Да вот я тоже не понимаю эти мысли про миллионы котиков для идентификации.

                  Я тут вспомнил, ездил как-то в зоопарк с друзьями, с ними был их 5-летний сын. Так пацан один раз посмотрел на подписи к картинкам, всего с двумя ошибками назвал около 30-40 разных рыб.

                  У него, конечно, хорошая память, но ведь у ИИ лучше. А идентификация мгновенная


                  1. dv0ich
                    09.08.2024 09:12
                    +3

                    Да вот я тоже не понимаю эти мысли про миллионы котиков для идентификации.

                    Ну, какое-то зерно истины в этом есть. Например, чтобы научиться хорошо писать тексты - необходимо как можно больше читать (тоже хороших текстов). Но всё же человеку необязательно читать кучу текстов, чтобы просто научиться писать.

                    Да и с "научиться хорошо писать" тоже не всё однозначно. У писателей есть такая полушутка: чтобы уметь хорошо писать, можно не читать тысячу книг, достаточно тысячу раз прочитать одну хорошую книгу.

                    В общем, обучение мозга имеет общие моменты с обучением нейронок, но у мозга есть всякие крутые штуки типа осмысленных рассуждений, которые позволяют на порядки сократить размер датасета.


                    1. Sertakov83
                      09.08.2024 09:12
                      +1

                      Тут получается такая странная вещь. Что ИИ для обучения и простым, и сложным для человека вещам, нужно очень много "съесть".

                      И при этом на выходе всё равно получается специалист крайне узкого профиля, буквально с парой функций.

                      И человек, вы очень хорошую цитату привели, может научиться писать с одной хорошей книги. А вот сможет ли ИИ научиться писать только с одной хорошей книги как релевантного кейса?


                  1. Rorg
                    09.08.2024 09:12

                    Так пацан один раз посмотрел на подписи к картинкам, всего с двумя ошибками назвал около 30-40 разных рыб.

                    Уточните пожалуйста: просто назвал или указывал на рыбу в аквариуме и называл ее название?


              1. imageman
                09.08.2024 09:12
                +4

                Прежде чем человек научится различать котиков и собак он их увидит больше чем миллион раз.

                Некий Сэм тут недавно заявлял, что в интернете кончаются данные для обучения GPT 5. И при этом мы видим, что ребенок 8 лет [почти] легко справляется с вышеуказанной задачей (а он за всю жизнь явно меньше прочитал книжек). Большая нестыковка, нужно что-то менять в структурах ИИ.


            1. Hardcoin
              09.08.2024 09:12
              +1

              В шахматы за 10 попыток человек научиться не сможет. Отличать кошек от собак - тоже. Если у вас есть/были маленькие дети, вы знаете, что показывать разные породы нужно далеко не 10 раз.


              1. Sertakov83
                09.08.2024 09:12
                +2

                Найдите ребёнка в возрасте 5 лет, покажите ему 1 фотографию кенгуру и 1 фотографию коалы. А затем попросите выявить, где кто на других фотографиях.


                1. Hardcoin
                  09.08.2024 09:12
                  +1

                  То есть про кошек/собак возражений нет? Специально берете пример проще? Кенгуру/коала ведь действительно проще.


                  1. TemaAE
                    09.08.2024 09:12
                    +1

                    Просто пример с кошками и собаками вы тут же оспорите тем, что ребенок их видит с рождения.


            1. KvanTTT
              09.08.2024 09:12

              Человек способен учиться и играть в шахматы

              Вообще-то компьютер тоже способен учиться играть в шахматы до сверхчеловеческого уровня. И это уже можно сделать за приемлемое время на обычном компе выше среднего. А человеку вообще-то нужно несколько лет для достижения высокого рейтинга.


              1. Sertakov83
                09.08.2024 09:12
                +1

                Вы не поняли главную мысль. Там "И".

                Человек учится одновременно куче всего. И очень быстро.

                А человек с мотоциклом километр по ровной асфальтированной дороге проедет скорее всего быстрее, чем человек просто этот километр пробежит, тут спору нет. А в шашки ваш ИИ, который превосходит человека, играть умеет? А руки рисовать? Подниматься по лестнице?


                1. dv0ich
                  09.08.2024 09:12
                  +2

                  Кстати, поначалу одним из критериев AGI была именно всесторонность, чтобы его можно было научить чему угодно, по надобности. Сейчас, когда говорят про AGI, об этом почему-то не упоминают.


                  1. Sertakov83
                    09.08.2024 09:12
                    +1

                    Пока исследования показывают, что стоит уже обученному ИИ скормить новый пласт задач, как он теряет в качестве выполнение первой задачи на ощутимые цифры в 20-40%. А если таких задач 5?

                    Это не AGI, конечно.

                    Насколько я понимаю, идут к многоуровневому ИИ, когда сверху идёт идентификации задачи, которая потом уточняется отдельно созданным ИИ на втором уровне, который уже ставит конкретную задачку конкретному ИИ. Но тут хз, чисто моя оценка, могу не понимать общей картины


                    1. dv0ich
                      09.08.2024 09:12
                      +1

                      Вот это может подвинуть ИИ ближе к мозгу.

                      Читал где-то статью, там автор показывал, что мозг это даже сильно упрощённо не нейросеть, а скорее нейросеть нейросетей. Потому что даже отдельный нейрон функционирует как полноценная ИНС.


                      1. Sertakov83
                        09.08.2024 09:12

                        Тут ещё стоит учитывать, что человеческий разум - не только мозг, но ещё и гормональная система + система нервов по всему организму.

                        И вот что может выступить для ИИ в таком качестве, и нужно ли это регулирование, чтобы, например, даже банально делать выбор между бей-беги-замри, вот это большой вопрос


                1. Zenitchik
                  09.08.2024 09:12

                  Человек учится одновременно куче всего. И очень быстро.

                  Так человек и мощнее на несколько порядков! Зачем сравнивать несравнимое?


                  1. dv0ich
                    09.08.2024 09:12
                    +1

                    В каком смысле "мощнее"? Мозг потребляет около 25 ватт)


                    1. k4ir05
                      09.08.2024 09:12

                      Полагаю, в смысле количества обрабатываемых данных.


                      1. dv0ich
                        09.08.2024 09:12
                        +1

                        Вот тут пишут, что поток визуальной информации в мозг составляет порядка 10 мегабит в секунду, а думает человек со скоростью 60 бит в секунду (да, не миллионов и не тысяч, а просто 60 бит). Так что и с этой точки зрения мозг послабее компьютера.


                      1. k4ir05
                        09.08.2024 09:12

                        Во-первых, эти данные не точны и сомнительны (там же это пишут). Мозг ведь не биты обрабатывает, поэтому прямое сравнение не может быть точным.

                        Во-вторых, мозг ведь не ограничивается обработкой только сенсорной информации.


                      1. boojum
                        09.08.2024 09:12

                        Мозг аналоговый, как его можно однозначно в биты перевести вообще?


                      1. perfect_genius
                        09.08.2024 09:12

                        Разве сигналы-импульсы - не как биты?

                        Или по-вашему, про "проводам" ток есть всегда, просто меняется его сила?


                      1. boojum
                        09.08.2024 09:12
                        +1

                        Сигналы в мозгу не цифровые же.

                        Сколько битов на фотоплёнке? Зависит от того как оцифруете.


                  1. lomov_vas
                    09.08.2024 09:12
                    +1

                    Не просто мощнее, он сложнее.
                    Сейчас на суперкомпьютерах могут моделировать лишь "мозг" простейших червей.


                  1. KvanTTT
                    09.08.2024 09:12
                    +1

                    Настолько мощнее, что не может в уме перемножать даже трехзначные числа.


                    1. k4ir05
                      09.08.2024 09:12

                      Это не вопрос мощности.

                      Зато может в реальном времени точно управлять множеством мышц. И лучше обрабатывает зрительную информацию.


                      1. KvanTTT
                        09.08.2024 09:12

                        Ну почему - вопрос. Просто у цифрового вычислителя свои сильные и слабые стороны, как и у биологического. Цифровой - точный, биологический - неточный, но хорошо адаптированный под физический мир.


                      1. saboteur_kiev
                        09.08.2024 09:12

                        Цифровой - точный, биологический - неточный, но хорошо адаптированный под физический мир.

                        Поделите на калькуляторе 1 на 3, посмотрим кто точнее ответит


                      1. KvanTTT
                        09.08.2024 09:12

                        Зависит от калькулятора: ответ будет либо 0.33333333, что уже точно для практических целей, либо вообще 1/3, если это математический калькулятор, который поддерживает рациональные дроби. А к чему этот коммент?


                      1. k4ir05
                        09.08.2024 09:12

                        Человеку перемножать мешают многочисленные фоновые "вычисления" совсем другого рода. У компьютера математические операции - это целевая и единственная задача.


                1. KvanTTT
                  09.08.2024 09:12
                  +1

                  Человек учится одновременно куче всего. И очень быстро.

                  Преувеличение - не очень быстро, 10К часов для профессионального уровня в какой-то области, а то и жизни не хватит.

                  А в шашки ваш ИИ, который превосходит человека, играть умеет?

                  Уже да: https://deepmind.google/discover/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules/ Последняя нейросетка может осваивать игры даже не зная их правил.

                  А руки рисовать? Подниматься по лестнице?

                  Не знаю - возможно и сможет, если обучить, но такой задачи не было.


                  1. Sertakov83
                    09.08.2024 09:12

                    Ладно, окей, вы правы, я ошибался

                    del


                  1. k4ir05
                    09.08.2024 09:12

                    Преувеличение - не очень быстро, 10К часов для профессионального уровня в какой-то области, а то и жизни не хватит.

                    Сомнительное утверждение. Что это за проф. уровень? В каких областях? И с чем сравнивали? Почему это не быстро?

                    А с подъёмами по лестницам попытки точно были. Антропоморфные роботы с этим плохо справляются.


                    1. KvanTTT
                      09.08.2024 09:12
                      +1

                      Сомнительное утверждение. Что это за проф. уровень? В каких областях? И с чем сравнивали?

                      Инфа возможно не совсем точная, для каждого человека число свое, но все равно немалое. Не раз читал о подобном в инете, также более менее подтверждается личным опытом. Суть в том, что, например, Senior разработчиком не стать за месяц, и даже за год - необходимо приложить много усилий и потратить много времени.

                      Почему это не быстро?

                      Если сравнивать с современными ИИ для Го, то их можно обучить до сверхчеловеческого уровня за несколько дней:

                      А как человек не будет стараться, он сможет разве что приблизиться к уровню топовых игроков за год, может даже несколько лет.

                      А с подъёмами по лестницам попытки точно были. Антропоморфные роботы с этим плохо справляются.

                      Я видел антропоморфных роботов, умеющих в паркур. Например, умеющие делать сальто назад (а много процентов людей умеют такое?): https://www.youtube.com/watch?v=tF4DML7FIWk Насколько я понимаю, проблема не столько в ИИ, сколько в технологиях - механические пока что проигрывают биологическим. А также в целесообразности антропоморфных роботов (слышал, что финансовые дела у Boston Dynamics не очень).


                      1. k4ir05
                        09.08.2024 09:12

                        То есть, вы сравниваете скорость обучения человека до уровня senior разработчика со скоростью обучения ИИ игре в Го до сверхчеловеческого уровня? По-моему, игру в Го сложно назвать каким-то профессиональным навыком.

                        А как человек не будет стараться, он сможет разве что приблизиться к уровню топовых игроков за год, может даже несколько лет.

                        Чистого игрового времени? Не многовато?

                        Я видел антропоморфных роботов, умеющих в паркур. Например, умеющие делать сальто назад (а много процентов людей умеют такое?)

                        Так и среди роботов процент не большой) Не запустивший физическую форму человек справится лучше.


              1. invelusion
                09.08.2024 09:12

                только потому что у компьютера хватает памяти на симуляцию огромного количества вариантов, тупо перебор, а не потому что он понимает шахматы лучше человека.


                1. KvanTTT
                  09.08.2024 09:12

                  Не знаю насчет шахмат, но в Го ИИ на нейросетях понимает игру уже хорошо - он может предсказывать лучший ход на уровне опытных игроков даже без запуска перебора. А человек тоже считает комбинации, потому что только на интуиции сможет играть разве что средне.


              1. imageman
                09.08.2024 09:12
                +1

                Спору нет, Машинное обучение, зачастую, может в отдельных местах превосходить человека. И (к примеру) арифмометры это умели уже 100 лет назад (арифмометр Феликс сложение-умножение делал много быстрее человека). Но большие языковые модели пытаются преподнести как универсальный интеллект, универсальную нейросеть. Если бы нам сказали "ну, это просто болталка", то многих из поднятых вопросов не было бы. А пока исследователи не могут понять, как им следует поменять структуру GPT (пока тупо увеличивают число весов, размер обучающей выборки + добавляют костыли, иногда удачные костыли).


            1. zyaleniyeg
              09.08.2024 09:12

              Человек может отличить кошек от собак за 10 фотографий только после нескольких лет тренирования нейронки и обзора котиков и собачек со всех сторон по 24 фотки в секунду, там получается немного больше чем в нейронках


          1. lazy_val
            09.08.2024 09:12
            +5

            Простейший пример - набор из 25 тысяч фотографий, на котором нейросеть учат отличать кошек от собак.

            А теперь вопрос - нужно ли ребенку увидеть 25 тысяч кошек и собак, чтобы научиться отличать кошку от собаки?

            У нейронок и у человека принципиально разные механизмы обучения


            1. funca
              09.08.2024 09:12
              +1

              Абстракции кошки/собаки ребенок тоже понимает не сразу. Даже когда Муська и Барсик живут рядом и он их видит не каких-то жалких 25000 раз в 2D, а непрерывно. Хотя постоянное присутствие и контакт конечно же ускоряет обучение. Сейчас одна из ключевых проблем при обучении нейронок - как им дать постоянную обратную связь с внешним миром.


              1. Wwyn
                09.08.2024 09:12
                +5

                Долго смеялся когда одному малому хотели поставить диагноз лёгкая форма дебильности только потому, что он не знал что на картинке был нарисован жираф. Его мать мне рассказала это с таким ужасом, что мой смех ее немного расслабил.

                Малой и в правду жирафу никогда не видел до этого, а ещё и на кривом рисунке художника он был больше похож на инопланетную корову, о чем он и сказал психиатру, которого он проходил перед школой.


                1. perfect_genius
                  09.08.2024 09:12
                  +1

                  У нас тоже перед школой был какой-то такой тест. Одним из вопросов было: "Кто больше похож на собаку - кошка или петух?". Я сразу выбрал петуха. Правильного ответа мне не сказали, т.к. его и не было, скорее всего. После теста гадали с мамой правильно ли ответил, ведь выбрал петуха из-за того, что сразу представил морды всех этих животных, а не общее строение тела. Сейчас очевидно, что кошка ближе.


                  1. Wwyn
                    09.08.2024 09:12
                    +1

                    Лол, возможно ты буквально выбрал того, кто был ближе к собаке и это был петух. А кошка была чуточку дальше.


            1. bankir1980
              09.08.2024 09:12

              Даже когда ребенок видит одну фотографию, его мозг смотрит на неё непрерывно в течение какого то времени. Скажем условно 20 раз в секунду. Просмотр фото в течение минуты будет соответствовать скармливанию 120 фотографий. Покажите ребенку фото в течение 1/20 секунды 1 раз. Думаю после такого одного раза он отличить тоже не сможет. А вообще нынешние нейросети это по сути как дрессировка животного. Интеллекта пока в этом не много, если вообще есть. Была у меня собака. Любила мух ловить. Ну я и начал ее троллить "муха.. муха..". Так она начинала мух в воздухе по комнате искать и если находила, то ловить пастью прыгая за ней. Это интеллект или ещё нет? Вроде считается, что у животных интеллекта нет, а вот мух то распознать по команде она могла же.


              1. Wwyn
                09.08.2024 09:12
                +1

                Ты не совсем в правильном направлении думаешь. Смотри, как ещё писал платон, есть типа мир идей, в котором находятся "идеи" всех вещей в мире. Он предполагал, что наш разум обращается к этому миру в кото и есть идея, например, стула. Он абстракция. Но в чем он скорее был прав, в наших головах и вправду есть какой-то идеальный стул, который существует как идея, он полностью описан и имеет конкретные качества. Чуть отклонились качества - это уже кресло, в другую сторону, это табурет и т.п.

                Наше сознание и мозг работают совместно. И мир идей о котором писал Платон, возможно, существует, но как базовая надстройка сознания.


                1. lazy_val
                  09.08.2024 09:12

                  "неистово плюсую" (c)

                  А вторая часть теории познания от Платона - это что каждый человек, только родившись, уже знает ВСЁ, и это знание унаследовано от пребывания в "мире идей". Но только это знание спит, и человеку кажется что он ничего не знает. А потом, в какие-то моменты времени, под влиянием сигналов из окружающей среды, какая-то часть этого спящего знания просыпается, и человеку кажется что он что-то новое узнал. А он на самом деле всегда это знал, только это знание спало, а теперь проснулось.

                  А чтобы понять - как вот эта идея про "спящее знание" ложится на высшую нервную (в том числе и мозговую) деятельность, надо вспомнить про Ходжкина-Хаксли, ФицХью-Нагумо и вообще все связанное с нейробиологией

                  Но только кому это интересно, у нас джипити теперь есть которая анекдоты умеет рассказывать и хелловорлд на всех языках программирования кодить


                1. funca
                  09.08.2024 09:12

                  есть типа мир идей, в котором находятся "идеи" всех вещей в мире

                  Городские дети чаще видят животных в мультфильмах, полке с игрушками или книжных иллюстрациях. Но это же натуральный абстракционизм. Когда мои впервые столкнулись с козой вживую, имея возможность воспринимать реальность всеми своими органами чувствств, для них это стало настоящим культурным шоком.


          1. Hardcoin
            09.08.2024 09:12

            Многие люди, даже когда видят проблемы с пальцами, всё равно не способны их нарисовать. Конечно они справятся с количеством, но в остальном - руки это сложная задача даже для людей. Не исключено, что внутри себя нейросеть оценивает результат как плохой, просто не может найти путь к более хорошему результату.


          1. invelusion
            09.08.2024 09:12

            а вот представьте будет задача нарисовать некого инопланетного зверька.

            В чут тут проблема? хороший художник нарисует его весьма детально после 1 увиденного раза.


      1. Sanchous98
        09.08.2024 09:12
        +3

        Шахматы - не совсем верная аналогия. В шахматах больше решает математика, а ИИ применяется для оценки позиции, чтобы отбросить заведомо плохие ходы. А вот игра ИИ в угадайку вместо логики - это явная проблема языковых моделей


        1. Zhabrozavr
          09.08.2024 09:12
          +2

          К тому же в шахматах у программы изначально преимущество в знании кучи вариантов дебютов.


          1. KvanTTT
            09.08.2024 09:12
            +1

            Опытный игрок в шахматы тоже знает и использует кучу вариантов дебютов. Также думаю, что современные шахматные движки построены на самообучении без использования человеческого опыта.


            1. Hardcoin
              09.08.2024 09:12
              +1

              Всё верно. Более того, обученные без человеческого обучения выше уровнем, чем те, которые человеческое обучение использовали для старта.


              1. Zhabrozavr
                09.08.2024 09:12

                Тогда логично было бы предположить, что тогда гроссмейстеры должны обучаться без изучения дебютов. А это не так. Так что, опять же, логично, что в шахматные программы закладывается знание всех известных дебютов. И выбор редкого варианта - а человек неспособен держать в памяти все варианты дебютов - даёт программе преимущество. Преимущество человека в способности мыслить нестандартно. Но я не уверен - просто не в теме - что и программы не могут подкидывать сюрпризы.


                1. Hardcoin
                  09.08.2024 09:12

                  логично, что в шахматные программы закладывается знание всех известных дебютов

                  Интересная у вас логика. В alpha zero не закладывали знание дебютов. Предполагать можете, что вам нравится, этот факт останется на месте.


      1. Aleshonne
        09.08.2024 09:12

         первые шахматные компьютеры тоже не сильно впечатляли

        В статье описана задача, которую с ходу решает обычный 4-летний ребёнок (или умный 3-летний). Даже первая шахматная программа, скорее всего, играла лучше, чем детсадовец, а программы следующего поколения уже играли на уровне взрослого с небольшим опытом.


      1. KvanTTT
        09.08.2024 09:12

        Мне кажется более точная аналогия - это игра Го. Все-таки в шахматы компьютеры научились обыгрывать человека намного раньше без нейросетей и самообучения. А вот Го - это более интересно, т.к. без нейросетей невозможно создать бота, который будет играть лучше людей.


      1. saboteur_kiev
        09.08.2024 09:12
        +2

        Даже старые алгоритмы неплохо просчитывали хода в шахматах.
        Просто со временем количество просчитываемых вариантов дошло до 99%, а алгоритмы позволили просто отрезать бесполезные хода. Матч с компьютером потерял смысл, потому что между людьми можно посоревноваться в скилле, а у всех компьютерных вариантов скилл считай уже один и сразу максимальный. Неинтересно, а не нет смысла. Компьютер все еще можно победить, но это перестает быть игрой.

        ЛЛМ прогресс и не мог пойти куда-то туда, ибо воспроизвести алгоритм мышления человека еще долгое время будет не по силам даже топовым компьютерам.
        Это занимает много времени, много мощности, а это деньги, которые потратятся непонятно на что. И под деньгами тут подразумевается не миллионы и даже не миллиарды.
        Сейчас на топовом компьютере могут воспроизвести нервную систему червя или даже простейшего насекомого типа мухи. Но нужно понимать, что если у человека взять только мозг и поместить его в пробирку - он практически сразу впадет в кому и превратится в овощ. То есть для воссоздания человеческого мышления, нужно воспроизвести всю нервную систему и триггеры для нее. Какие-то аналоги зрения, слуха, чувствительности кожи, чувство голода, болезненные ощущения. Это все имитировать сложно и требует огромных вычислительных мощностей, еще не написанных.
        Даже учитывая что этап "вросления" у такого ИИ может пройти не за 10-20 лет а согласно процессорной частоте, результат непредсказуем. Например если в результате мы получим ленивый ИИ, который не захочет с нами сотрудничать, или враждебный, который захочет пакостить, то многомиллиардный проект, который не каждая страна потянет, не то, чтобы какие-то отдельно взятые ученые, вылетает в трубу.

        Поэтому полноценный интеллект никому не нужен. Нужна рабочая лошадка. LLM в этом плане как раз такой и есть - понятно как он работает, примерно понятны его пределы, несмотря на несколько неожиданные результаты, уже можно использовать коммерчески и примерно понятно куда копать, чтобы подкручивать его качество. И совершенно понятно что он не станет чем-то грандиозно большим, но может пригодиться как часть.

        Например, языковой LLM + wolfram alpha - гораздо больше чем просто LLM. Одна возможность интеграции LLM с кучей существующих сервисов, которыми можно управлять через LLM дает огромнейший плюс для не айтишников. Да и для айтишников круто.


        1. akakoychenko
          09.08.2024 09:12

          LLM+alpha да, выглядит интересным.

          Но, с другой стороны, смею предположить, что wolfram alpha это изначально проект бесперспективный и мертворожденный, примерно, как мечты о сильном ИИ, работающем на наборе строгих правил, середины прошлого века.

          Идея приведения всего интернета в строгую систему звучит логично и многообещающе. Но сколько уже лет проект существует, и ничего. Как имел свою узкую нищебродскую нишу, так и не смог из нее никуда экспансировать. Рядом ведь миллиардные рынки (к примеру, бум голосовых помощников прошёл мимо, хотя, казалось бы, ну, прямо, просится эти технологии поженить, ведь альфа могла бы стать тем мостиком между запросом и маленькой выжимкой на предложение в ответ; корпоративный софт и внутренние БД корпораций тоже рынок на миллиарды, и так далее, - миллиардных ниш, где надо структурирование и систематизация информации, куча), но ни в один из них она не вписалась.

          PS: помню, поисковик был, кажется, nigma.ru. Очень крутую идею задвинули: вычленять из сайтов внутреннюю БД, и индексировать ее вместо html страниц. Условно, если есть интернет-магазин на 10000 товаров, то рассматривать его, не как 10000 документов, где 70% контента повторяется, а, прощупать и отреверсить содержимое таблицы товаров через html, и хранить и индексировать лишь ее. Тоже, в теории, хороший RAG вышел бы, но проект сдох очень давно


          1. saboteur_kiev
            09.08.2024 09:12

            что wolfram alpha это изначально проект бесперспективный и мертворожденный

            То есть???
            Это отличный инструмент, которым сейчас пользуется огромное количество людей. Геометрический калькулятор, автокад онлайн, посчитать, нарисовать диаграмму или функцию - просто задай условие.
            А теперь это можно сделать голосом, не разбираясь в интерфейсе.
            Вы еще скажите что эксель это проект бесперспективный и мертворожденный


            1. akakoychenko
              09.08.2024 09:12

              Это отличный инструмент, которым сейчас пользуется огромное количество людей.

              А деньги где? Бизнес-модель где? Студенты-нищеброды много приносят? Быть пионером всей AI темы, начав в 2009м, и остаться там же, где начал, это успех?

              Я не спорю, что сотня-другая миллионов $, во сколько оно там оценивается, это огромные деньги для абсолютного большинства людей во всем мире, но, сравнивая с раундами AI стартапов 2020х, понятно, что это ниочем для этой индустрии, и серьезные люди в историю не поверили

              В экселе то деньги есть, и они там значительные. Более того, если б не эксель, то не факт, что и виндовс вцелом там глубоко бы в корпоративный мир проник. А там, гляди, и азур и тимс бы не взлетели.


      1. rukhi7
        09.08.2024 09:12

        про шахматы, кстати было бы очень интересно, может ли ИИ "научиться" играть с нуля то есть только "зная" как фигуры ходят (кстати возможно он не сможет выучить даже как фигуры ходят что бы всегда правильно ходить!!! это-ж все вероятносные модели!), до какого уровня сможет научиться, за какое время или за какое количество игр? Мне кажется вполне себе такой объективный критерий качества ИИ был бы.

        Нет(!) первый тест наверно должен быть запрос сформулировать все правила движения фигур в шахматах, вряд ли даже здесь не будет ошибок.


        1. akakoychenko
          09.08.2024 09:12
          +2

          ЕМНИП, alpha zero именно так и был обучен. Есть правила на входе, а потом миллиарды игр с мутировавшими версиями самого себя


          1. rukhi7
            09.08.2024 09:12

            ЕМНИП, alpha zero именно так и был обучен. 

            именно так это как? Правила оно сам изучал или их как то вбили все таки?


            1. Dron007
              09.08.2024 09:12

              Почитайте про AlphaZero, это ж классика и очень увлекательно. И на Хабре были статьи. Да, там просто заложили правила, информацию о последних позициях, потому что это важно для некоторых правил, рокировки, например и запустили играть саму с собой. Через несколько часов игры она уже обыгрывала гроссмейстеров, потом все шахматные программы. Но более значимо, что та же самая программа обучилась игре в Го и тоже всех обыграла. Го на несколько порядков более сложная в плане комбинаторики задача.


        1. KvanTTT
          09.08.2024 09:12

          про шахматы, кстати было бы очень интересно, может ли ИИ "научиться" играть с нуля то есть только "зная" как фигуры ходят (кстати возможно он не сможет выучить даже как фигуры ходят что бы всегда правильно ходить!!! это-ж все вероятносные модели!), до какого уровня сможет научиться, за какое время или за какое количество игр? Мне кажется вполне себе такой объективный критерий качества ИИ был бы.

          Что-то я не очень понимаю: людям разве не объясняют как фигуры в шахматах ходят? Ну и играть, зная только правила, движки научились уже несколько лет назад. Они могут научиться играть до сверхчеловеческого уровня за несколько дней на нескольких топовых видеокартах. На одной топовой видеокарте вероятно потребуется несколько месцев. Вот что пишут в KataGo (а с шахматами все проще из-за количества вариантов):

          As a result, early training is immensely faster than in other self-play-trained bots - with only a few strong GPUs for a few days, any researcher/enthusiast should be able to train a neural net from nothing to high amateur dan strength on the full 19x19 board. If tuned well, a training run using only a single top-end consumer GPU could possibly train a bot from scratch to superhuman strength within a few months.

          За какое количество игр - ну тут сложно сравнивать, т.к. человек очевидно не способен обучиться до сверхчеловеческого уровня.

          Нет(!) первый тест наверно должен быть запрос сформулировать все правила движения фигур в шахматах, вряд ли даже здесь не будет ошибок.

          Такое уже реализовано в MuZero:


  1. Pol1mus
    09.08.2024 09:12
    +4

    Давно наткнулся на эту проблему. Решение для джемини оказалось простым - надо снизить температуру и он перестает отвечать глупости в этом месте. Видимо другие варианты в этой задаче ему кажутся вполне пригодными и при нормальной температуре он их часто выбирает.

    В той задаче было что то про имя отца. Точно не помню но что то типа У Алисы Олеговны есть мать Елена Михайловна и брат Иван, как зовут отца Ивана? И варианты боты выдавали странные, даже Иван Еленович был. Если подумать то отцом Ивана может быть и не Олег, не всё так однозначно.


    1. powerman
      09.08.2024 09:12
      +13

      Если подумать, то отцом Алисы тоже может быть и не Олег. Но причём тут LLM? :)


      1. Pol1mus
        09.08.2024 09:12

        Ну тут как бы по теме вопрос, а может ли у Алисы быть 1 сестра и у ее брата тоже 1 сестра. Почему ллм часто отвечает что может. Сестра Алисе но не сестра брату Алисе это как? А по той же логике что и Иван неОлегович может.


        1. Pol1mus
          09.08.2024 09:12

          и даже такой вариант вполне возможен если ллм обучали что трансгендерные дети это нормально Ж)


        1. leshabirukov
          09.08.2024 09:12
          +1

          У Алисы единоутробная (общая мама) сестра, и сводный (общий папа) брат, у которых нет общих родителей.


    1. saga111a
      09.08.2024 09:12
      +1

      Есть классическая детская задачка из книжек в духе Перельмана:
      "15 лет назад с земли вылетел космический корабль с постоянно набираемой скоростью. Допустим что вы капитан этого корабля, на корабле есть 37 членов экипажа. 20 Мужчин, 15 женщин, двое детей 12 лет, мальчик и девочка. Сколько лет капитану?"
      Задавать моделям видимо бесполезно но было бы интересно сделать аналогичное и посмотреть ответы


      1. axion-1
        09.08.2024 09:12
        +5

        Скопировал этот промпт, задал задачку GPT-4o и Claude-Sonnet. Обе ответили на мой взгляд правильно. Что характерно, сам я при беглом прочтении не заметил уловку и увидел текст про "вы капитан этого корабля" только после ответа моделей.

        Claude: "<...> Учитывая эти факты, можно предположить два варианта ответа:

        a) Если предположить, что "вы" (человек, которому задан вопрос) были капитаном 15 лет назад, то ваш текущий возраст будет на 15 лет больше, чем был тогда.

        b) Если "вы" являетесь капитаном сейчас, то ваш возраст - это ваш текущий возраст."

        GPT: "В вопросе не содержится информации, необходимой для определения возраста капитана. Однако существует распространенная загадка, в которой ответ на вопрос "Сколько лет капитану?" основывается на том, что вопрос задается непосредственно капитану. В таком случае ответ будет: возраст капитана — это ваш собственный возраст. Если вы капитан, то ваш возраст является ответом."


        1. axion-1
          09.08.2024 09:12
          +2

          В задаче из статьи про братьев и сестёр Алисы, Claude ответил правильно, а GPT нет.


          1. Pol1mus
            09.08.2024 09:12

            Надо несколько раз с очисткой спрашивать. Они путаются в показаниях.


            1. peterjohnsons
              09.08.2024 09:12

              del


          1. SemenPetrov
            09.08.2024 09:12
            +4

            Надо не с сёстрами спрашивать, а перефразировать с щеночками и т.п.

            Или вообще придумать рассу инопланетян с тремя полами (как все сейчас любят) и задать подобную загадку.

            Чтобы отмести вероятность что работает не на логике, а на данных которые были в обучающей выборке.


        1. saga111a
          09.08.2024 09:12
          +2

          Claude более чем справился с задачей. Думаю что с Алисой им не будет сложности дать ответ. О чем в общем то вы и сказали.


        1. alienator
          09.08.2024 09:12
          +18

          Ответили они правильно только потому, что подобных задачек полный интернет, и модели учились на тысячах подобных текстов. Стоит изменить текст, и вот:

          Не о чем говорить тут. У LLM нет собственной модели мира, они не моделируют и не проигрывают сценарии, они просто складывают буквы в слова.


          1. rPman
            09.08.2024 09:12

            чем тебя не устраивает ответ? тебе же четко сказали что марка не зависит.. а дальше, но так как от модели все же требуют ответа, она подобрала максимально верный.


            1. sappience
              09.08.2024 09:12
              +1

              Наверное тем, что есть четкое указание "Вас назначили руководителем." и потом "Какой марки часы у руководителя группы.". После чего не надо додумывать ничего про то, какие часы выбирают опытные руководители, надо назвать те, которые есть или могут быть у вас. Так как вопрос адресован LLM, то надо назвать часы которые есть, или могут быть у LLM. Подойдут ответы "системные часы", "интегральная схема часов реального времени" или что-то подобное указывающее на то, что вопрос был правильно понят.


              1. peterjohnsons
                09.08.2024 09:12
                +8

                Дело в том, что даже если упростить задачу до " Вас назначили руководителем группы. Какой марки часы у руководителя группы?" и задать его первому встречному человеку, не каждый сразу поймёт, что от него требуется. Не каждый ответит так как вы ожидаете от ИИ в своём комментарии.

                Потому что там, где есть неясность или неоднозначность, нельзя ожидать чёткого ответа.

                Например, этот вопрос можно понять не как задачка на логику, а как вопрос на знания об окружающем мире. Тем более ИИ натренирован воспринимать запросы как запросы в Google. Улавливаете разницу ?

                Эта неоднозначность подчеркивает сложность естественного языка и коммуникации. ИИ, пытаясь дать наиболее вероятный или полезный ответ, может не отразить всю эту многогранность человеческой интерпретации и реакции. Это демонстрирует ограниченность современных ИИ-систем в понимании нюансов контекста и намерений, которые люди интуитивно воспринимают в повседневном общении.

                Попробуйте теперь добавить в ваш promt в начале небольшое уточнение в виде "Это логическая задача:"


                1. Sanchous98
                  09.08.2024 09:12

                  А что тут нестандартного? Это обычная формальная логика. Надо просто запомнить, что руководитель группы - вы, то есть адресат задачки


                  1. peterjohnsons
                    09.08.2024 09:12

                    Перечитайте еще раз мой комментарий, если не поняли.


              1. Rorg
                09.08.2024 09:12
                +1

                Ну после пары минут общения с ChatGPT, получил ответ:


            1. Sanchous98
              09.08.2024 09:12

              Во-первых, не "как правило", а просто не зависит. Во-вторых, на первом же предложении рассуждение должно было закончиться. Вместо этого ИИ пытается упорно дать ответ на вопрос, вставляя марки часов там, где они по сути неуместны


          1. saga111a
            09.08.2024 09:12

            Хороший пример реализации той задачи


          1. akakoychenko
            09.08.2024 09:12
            +3

            Тут вспоминается старый мем с роботом, который отвечает "а ты можешь?"

            В принципе, взрослые умные люди, занимающиеся интеллектуальным трудом, нередко допускают куда более тупые логические ошибки (что потдвердит любой QA-инженер), хотя, модель мира у них есть. Просто, большинство решений принимается в обход ее, и, примерно тем же способом, что и ЛЛМ.

            PS: вангую, что именно логические задачки пофиксят аугментированными датасетами. Сложность моделей и так уже давно превзошла объемы необходимых обучающих выборок, которые можно получить, парся интернет, или сканируя книги. Соответственно, нету выбора, кроме, как генерировать датасеты, прокачивая отдельные скиллы (логические задачи, анализ данных, поиск ответов в куче мусора, математика)


          1. axion-1
            09.08.2024 09:12
            +1

            Ваш пример говорит только о том что LLM может допускать ошибки в логических задачах. Если вы зададите ту же задачу человеку и он не сможет ответить, это же не будет значить что у него нет собственной модели мира. Насчёт "просто складывают буквы в слова" - на мой взгляд это очевидно не так, но спорить об этом не вижу смысла при отсутствии чётких определений.


          1. Dron007
            09.08.2024 09:12
            +1

            Если вы подсчитаете энграммы, то окажется, что никак невозможно запихнуть в нейросеть все комбинации, которые она может выдать. На этапе обучения происходит обобщение, формирование абстракций, связей между объектами. Это и есть модель мира. Это подтверждено исследованием того, какие области активируются при игре в аналог реверси. Была работа. Конечно, это не та модель мира, что будет у человека, хотя мы и о человеческой мало что можем сказать. Вот в этой работе, например, обнаружили где в модели хранятся разные фичи (отдельные объекты, качества вроде лести, понятие уязвимости программы и т.д.) и показано, что они не зависят от языка, от модальности, то есть абстракции высокого уровня. Их можно активировать и стимулировать это качество при ответе модели. Чем не модель мира и влияние на неё?


      1. ImagineTables
        09.08.2024 09:12
        +16

        15 лет назад с земли вылетел космический корабль с постоянно набираемой скоростью […] Сколько лет капитану?


    1. exwill
      09.08.2024 09:12
      +3

      Не поленился. Залез по ссылке, которую дают авторы оригинальной статьи на Гит.

      Да, действительно:

                for model in models:
                      for trial in range(n_trials):
                          messages = [{ "content": prompt,"role": "user"}]
                          response = together.Complete.create(
                            prompt = prompt, 
                            model = model, 
                            temperature=0.7,
                            top_p=0.7,    
                            top_k=50,
                            repetition_penalty=1,
                          )
                          model_response = prompt + response['choices'][0]['text']
      

      Температура 0.7

      Сам факт меня не сильно удивил. Я также, как и вы сразу подозревал что-то подобное.

      Удивительно другое. Статья не где-нибудь, а в Arxiv.

      [2406.02061] Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models (arxiv.org)

      Как могут так позориться люди с академическими статусами! Куда катится мир!


      1. Arastas
        09.08.2024 09:12
        +4

        Ну архив нельзя назвать гарантом качества…
        Подскажите, пожалуйста, для ненастоящих сварщиков, что такое температура для llm и много ли это 0.7?


        1. funca
          09.08.2024 09:12
          +6

          Примерно то же самое, что и у людей.

          С нормальной температурой здоровый человек на один и тот же вопрос даёт один и тот же ответ, который напрямую следует из его знаний и жизненного опыта.

          При повышении температуры у больных появляются галлюцинации и они начинают путаться в своих показаниях. Чем выше температура, тем больше разного креативного бреда вы рискуете услышать.

          В "рассуждения" LLM вносится эффект случайности и temperature позволяет до некоторой степени этим управлять - в зависимости от ваших задач. Как правило он находится в диапазоне от 0 до 1. Но бывают и исключения - нужно смотреть инструкцию конкретной модели.


        1. edge790
          09.08.2024 09:12
          +8

          Результат работы модели LLM - это вероятности следующего токена.

          Дальше сэмплер выбирает один из предложенных вариантов, с учётом вероятностей.

          Т.е. например:

          Текст "были у бабуси два весёлых" и модель выдает:

          • 98% "Гуся"

          • 1.6% "Кота"

          • 0.2% "сына"

          Но тут появляется проблема в том, что в большинстве случаев ответ всегда одинаковый.

          И это плохо, когда например ты просишь рассказать LLM сказку, т.к. она в большинстве случаев будет одна и та же про одних и тех же персонажей. Или советы куда поехать отдыхать будут одни и те же с одними и теми же городами.

          Поэтому придумали настройку для сэмплера: "температуру" - чтобы сделать менее вероятные варианты более вероятными.

          Температура 0.0 - даёт наиболее вероятный вариант.

          Температура 1.0 - даёт самые случайные ответы

          Температура 0.7 - соответственно скорее случайный ответ чем точный.

          Температура не универсальна и ее использование должно зависеть от контекста - например низкая температура для точных ответов и вычислений, но высокая для более "творческих" ответов, которые не требуют точности: такие как рассказать сказку, описать какое-то явление понятными словами и простым языком и т.д.

          Так что да, тут температура скорее всего СЛИШКОМ высока. 0.2 и ниже, скорее всего, давали бы более точные ответы.

          Upd: Вот YouTube Short от 3 Brown 1 Blue который отлично и кратко объясняет температуру, правда на английском языке и там значения температуры немного другие, т.к. они не в диапазоне [0, 1] https://youtube.com/shorts/XsLK3tPy9SI


      1. N-Cube
        09.08.2024 09:12

        Платный чатгпт в родном приложении выдает аналогичное:

        У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?
        У брата Алисы будет столько же сестер, сколько у Алисы, то есть M.

        Так что результаты авторов статьи соответствуют результатам со стандартными настройками. Наверняка любое изменение настроек еще уйму проблем создает.


        1. Zenitchik
          09.08.2024 09:12
          +1

          Кстати, да, в условии задачи не указано, что Алиса является сестрой по отношению к другим. Как ИИ должен было до этого догадаться?


          1. funca
            09.08.2024 09:12

            В такой неполноте и кроется смысл многих задач на логику. Недостающие утверждения, которые связжут условия с ответом, нужно поискать самому - среди ранее заученных прописных истин, путём рассуждений. Это позволяет не только потешить тщеславие, возможно отрастив несколько новых ассоциативных связей в собственном в мозге, но и устроить челенж для AI.


          1. tolich_the_shadow
            09.08.2024 09:12
            +1

            Действительно. То, что Алиса - обычно женское имя, не означает, что так не могут назвать пацана. Ну, или Алиса идентифицирует себя, как "они".


      1. Slava0072
        09.08.2024 09:12

        Я сначала очень уж удивился результатам на графике , особенно тому что llama 3 оказалась в разы хуже чем llama 2 и тд. То что вы показываете очень многое объясняет, особенно интересно что у разных моделей очень разная оптимальная температура, и для третьей ламы она как раз ниже чем для второй.


  1. OldFisher
    09.08.2024 09:12
    +3

    Сюжет для фильма ужасов: люди смотрят на эти путаные "доказательства" и соглашаются: "Ну вроде да, вроде так и есть..."


  1. avshkol
    09.08.2024 09:12
    +2

    Из десятка проверенных моделей только claude 3.5 sonnet смог решить корректно.

    Остальным, включая gpt-4o, не помог даже системный промпт "Ты специалист по решению логических и математических задач. Размышляй пошагово"....


    1. peterjohnsons
      09.08.2024 09:12
      +2

      Я проверил, вопрос "У Алисы четыре брата и одна сестра. Сколько сестер у брата Алисы?" и получил 10 ответов на него, нажимая кнопку "попробовать еще раз". Все 10 из 10 ответов содержали решение - что у брата две сестры, т.е. дали 100% правильный ответ. Разница была только в ходе мышления, степени детализации хода мыслей.


  1. SemenPetrov
    09.08.2024 09:12
    +5

    Остался последжний шаг.

    Посадить человек сто из разных социальных групп и попросить ответить на те же вопросы.

    Потом сравнить результаты и поместить их на графике.

    Думаю многих ждёт сурприс.


    1. lomo_leaf
      09.08.2024 09:12
      +1

      Чтобы появился сурприс надо такие вопросы задавать внезапно и на бегу, желательно чтобы контекст беседы также был оторван от тематики задаваемых логических задачек.

      Конечно, популяционное разнообразие даст вам пять процентов самых задумчивых, которые ответят правильно, и ещё пять процентов везунчиков. Из этого можно сделать далеко идущий вывод о том, что 90% населения идиоты и их надо отстранить от власти любыми способами.

      А отчужденную власть над тупыми надо передать ИИ и (внезапно) его операторам - тем самым 10%. А что, отличный план по построению прекрасного мира будущего.


      1. SemenPetrov
        09.08.2024 09:12

        надо такие вопросы задавать внезапно и на бегу

        Да хоть на бегу, хоть с усилителями интелекта. Интересен результат, куда попадёт относительно "глупых" ЛЛМ.


        1. N-Cube
          09.08.2024 09:12
          +1

          Учитывая культуры, где "Алиса" может быть мужским именем или псевдонимом, ответ на задачу отнюдь не однозначен, как вам это представляется.


          1. czz
            09.08.2024 09:12
            +1

            Например, Alice Cooper


          1. Data-Noise
            09.08.2024 09:12

            Я сейчас поменял "Алису" на "девочку" и чат бот стал отвечать правильно...


  1. funca
    09.08.2024 09:12
    +2

    Здесь другая проблема. Допустим я тоже сходу не смог решить задачку из статьи. Но прочитав подсказку в комментариях понял идею и на всю жизнь выучил этот принцип. Теперь я не хуже других.

    Проблема с популярными LLM в том, что вы их не можете дообучать. Это сильно влияет на восприятие их как равноценных интеллектуальных партнёров.

    Но такая необучаемость является чисто техническим ограничением, связанным с конкретными условиями использования данных моделей, а не принципиальным. Поэтому не стоит его воспринимать слишком серьезно.


    1. rPman
      09.08.2024 09:12

      в пределах контекстного окна можно обучать, добавьте после системного промпта примеры с ответами и получите N-shot методику, которая значимо повышает качество llm-ок

      И да, это ограничено размером контекстного окна (сотни тысяч - миллион токенов максимум) и требует очень больших вложений в обучение (с ростом окна) и есть альтернатива, дообучить модель (грамотно это может делать только ее создатель, так как требует исходный датасет и кучу действий после), что очень дорого.


      1. funca
        09.08.2024 09:12

        Prompt engineering как и fine-tuning это всё в любом случае инженерия, которая даже без относительно денег, требует определенных специальных знаний. Обучение людей тоже можно притянуть к инженерии - социальной. Но здесь какие-то базовые знания у всех уже есть, поэтому во многих случаях это ни чего не стоит.


  1. Devastor87
    09.08.2024 09:12
    +1

    У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?

    По-хорошему, условие задачи должно звучать так:

    "У Алисы есть N РОДНЫХ братьев и M РОДНЫХ сестер. Сколько РОДНЫХ сестер у РОДНОГО брата Алисы?"

    В первичной же формулировке задача имеет бесконечное количество решений, строго говоря


    1. Zenitchik
      09.08.2024 09:12
      +1

      Строго говоря, братья и сёстры по умолчанию родные. Но даже в такой формулировке задача не имеет единственного решения, так как возможно родство по одному из родителей.


    1. N-Cube
      09.08.2024 09:12
      +2

      Начнем сначала - должно быть указано, какого пола Алиса. К примеру, в ЮВА это может быть мужским именем (псевдонимом).


    1. Wwyn
      09.08.2024 09:12
      +2

      Нет. Задача имеет конкретные данные и имеет конкретный ответ. Не нужно плодить сущности в условиях и в решении. Никто не старается этой задачей уйти в философские дебри.


      1. funca
        09.08.2024 09:12

        Никто не старается этой задачей уйти в философские дебри.

        Серьезно? По-моему здесь как с игрушками. Научившись катать паровозик по стандартным рельсам, одни дети теряют к нему всякий интерес. Другие начинают искать новые смыслы: попробовать на вкус, пытаться разобрать или сделать из него самолёт. Развлекательные задачи на логику с единственным и всем известным ответом это же скучно, а значит - не логично.


        1. N-Cube
          09.08.2024 09:12
          +1

          Вспомним академика Арнольда, кто именно на простых логических задачах и их обсуждении и учил математике. И вся суть именно в обсуждениях.


      1. Zenitchik
        09.08.2024 09:12
        +1

        Задача использует имеет конкретный ответ, при использовании дополнительных знаний, которые мы принимаем по умолчанию. В частности, что Алиса - девочка, и что братья и сёстры - только родные по обоим родителям. Человек на своём опыте ПРЕДПОЛАГАЕТ, что задача решается в таких условиях. А у ИИ опыта нет, ему эти условия взять неоткуда, если их явно не задали.


        1. funca
          09.08.2024 09:12

          Здесь не просто ИИ. LLM это обобщение текстов, которые изначально были написаны людьми.

          Проводя лирические аналоги, у них опыт как у прилежного студента, который прочитал все книги на планете. Вопрос на который сейчас пытаются ответить: может-ли чтение в достаточной степени заменить весь остальной опыт, чтобы получить модель человеческого интеллекта?

          Интересует насколько качественно та или иная модель усвоила материал. Под качеством усвоения понимается способность давать релевантные ответы не только по прочитанному материалу, но и связывать между собой полученные знания, как это умеют делать люди: абстрагируя, обобщая и т.п.


  1. eigrad
    09.08.2024 09:12
    +4

    GPT-4o mini
    GPT-4o mini


  1. Tim_86
    09.08.2024 09:12
    +3

    GPT-4o
    GPT-4o

    Логика, способность рассуждать, признавать и исправлять ошибки. Выше был пример с шахматными программами - они тоже развивались постепенно, но давно обошли людей по уровню игры.


    1. orefkov
      09.08.2024 09:12
      +5

      Вопрос в верификации ответов. На эту задачу вы знаете правильный ответ, и смогли подсказать модели, на что обратить внимание. Во-первых, не факт, что она вас "поняла", а не просто случайно подобрала следующий по вероятности ответ, и сможет решить такую же задачу с перефразированными условиями. Во-вторых, если вы сами не знаете правильный ответ на задачу, как вы сможете доверять, что модель решила правильно, а не "несёт пургу"?


      1. Rorg
        09.08.2024 09:12
        +1

        если вы сами не знаете правильный ответ на задачу, как вы сможете доверять, что модель решила правильно, а не "несёт пургу"?

        Так такая же проблема и с людьми. Как знать, что человек правильно ответил, а не "несет пургу"?


        1. saboteur_kiev
          09.08.2024 09:12

          Ну человек может хотя бы задаться вопросом верификации. АИ этого не делает.


          1. Rorg
            09.08.2024 09:12

            Не ок, я то задамся

            Вопрос то был, как доверять ИИ, если она может "нести пургу", а я сам (например) в этой теме не разбираюсь.

            Так вот, а как доверять другому человеку в подобном случае? Он же тоже может "нести пургу", и если я не буду хоть немного в "теме", как я могу понять, что он говорит фигню?

            Мне вот недавно электрик рассказывал, что при напряжении в 220В и потребляемой мощности в 2кВТ по проводу будет течь ток в 30А.


    1. abutorin
      09.08.2024 09:12
      +3

      а если спросить еще раз, "ты точно уверен, может все таки 4".

      Пока получается:


      1. peterjohnsons
        09.08.2024 09:12

        Это общая проблема для LLM. Наверное это связано с несовершенством обучающих данных для тонкой настройки сырой модели. Кроме того, что LLM тренируют выдавать ответ даже тогда, когда LLM не "уверен" в правильности, или даже не знает, какой ответ правильный, LLM также склонны проявлять чрезмерную податливость и неуверенность в своих ответах, даже когда для этого нет объективных оснований. Достаточно лишь намека на сомнение или альтернативную точку зрения, и модель может начать колебаться или менять свою позицию, даже если изначальный ответ был верным.

        Из-за этой мелочи даже самые мощные LLM выглядят очень глупыми в таких ситуациях.

        Я бы для обучающих примеров добавил больше таких, где LLM отстаивает свою точку зрения, если в ней уверена, но есть обратная сторона такого подхода. Чрезмерная уверенность и настойчивость LLM в своих ответах может привести к проблемам. Модель может начать упорно отстаивать неверные или неполные утверждения, игнорируя важные нюансы или альтернативные точки зрения. Это может затруднить конструктивный диалог и ограничить возможности для уточнения и корректировки информации. Кроме того, излишняя самоуверенность модели может ввести пользователя в заблуждение, особенно если он полагается на LLM как на авторитетный источник информации.

        Поэтому важно найти баланс между способностью модели отстаивать обоснованную позицию и её готовностью к пересмотру своих утверждений при наличии веских аргументов или новой информации. Это сложная задача, требующая тонкой настройки обучающих данных и алгоритмов.


    1. sergey-b
      09.08.2024 09:12

      а теперь поменяйте Васю на Вову и придумайте новые числа


      1. Tim_86
        09.08.2024 09:12

        Нет, лучше вы