В своем подкасте я грозился сам почитать статью GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ученых из Apple и разобраться. Почитал. Разобрался. Забавная статья. Забавная не по содержанию, а по выводам, которые можно сделать, если читать между строк и выйти за границы статьи.

Сначала совсем прямой смысл.

О чем говорят чувачки из эпла? Они пишут (перевод заключения статьи ниже в цитате), что большие лингвистические модели (LLMs, это разные GPT) умеют только в то, что видели в обучающем наборе данных, а в то, что не видели, они не умеют. То есть, никакой логикой они не обладают, даже элементарной!!! В математику они не умеют.

В статье они приводят разные примеры и толпу графиков. Я выбрал несколько для пояснения.

Если сместить немного содержание запроса от "правильного", добавив в него незначительные изменения, которые явно на результат запроса влиять не должны - то модель их учтет как значимые и изменит ответ с учетом этих условий (и ответ станет неправильным).

Даже небольшие изменения в запросах влияют на точность и разброс ответов модели. На графике выше видно, что кривая измененного запроса становится ниже и расползается вширь - это и есть оно самое.

А на этом скрине (выше) описана элементарная математическая задача: "паренек собрал столько то яблок в один день, столько то в другой и столько то в третий, сколько всего яблок?". GPT решает задачу правильно, если только не добавить в задачу условие "а 5 яблок немного меньше среднего" (имеется в виду размер, что никак не влияете на результат). И тут то GPT, и не одна, ошибается. Это и есть демонстрация, что в математику GPT не умеет. По школьному GPT - это зубрила, а думать и рассуждать в новых условиях у нее получается слабовато. Ну и ученые говорят, что надо работать дальше и больше (то есть над другими моделями).

Свои личные выводы напишу в конце этой статьи, а пока перевод.

Перевод заключения из статьи эпловцев.

В этой работе мы исследовали способности больших языковых моделей (LLMs) к рассуждению и ограничения текущих методов оценки на основе набора GSM8K. Мы представили GSM-Symbolic, новый тестовый набор с несколькими вариантами, предназначенный для более глубокого понимания математических возможностей LLMs. Наше масштабное исследование показало значительную вариативность производительности моделей при различных изменениях одного и того же вопроса, что ставит под сомнение надежность текущих результатов GSM8K, основанных на одноточечных метриках точности. Мы обнаружили, что LLMs демонстрируют некоторую устойчивость к изменениям собственных имен, но гораздо более чувствительны к изменениям числовых значений. Мы также заметили, что производительность LLMs ухудшается по мере увеличения сложности вопросов.

Введение набора GSM-NoOp выявило критический недостаток LLMs в способности по-настоящему понимать математические концепции и различать релевантную информацию для решения задач. Добавление, казалось бы, значимой, но на самом деле несущественной информации к логическому рассуждению проблемы привело к значительному снижению производительности — до 65% для всех современных моделей. Важно отметить, что мы продемонстрировали, что LLMs испытывают трудности даже при наличии нескольких примеров одного и того же вопроса или примеров, содержащих похожую несущественную информацию. Это свидетельствует о более глубоких проблемах в их процессе рассуждения, которые нельзя легко устранить через обучение на нескольких примерах или тонкую настройку.

В конечном итоге наша работа подчеркивает значительные ограничения LLMs в способности выполнять истинные математические рассуждения. Высокая вариативность производительности моделей на разных версиях одного и того же вопроса, значительное падение производительности при небольшом увеличении сложности и их чувствительность к несущественной информации указывают на хрупкость их рассуждений. Это может больше напоминать сложное сопоставление шаблонов, чем истинное логическое мышление. Мы напоминаем, что и GSM8K, и GSM-Symbolic включают относительно простые школьные математические вопросы, требующие только базовых арифметических операций на каждом этапе. Следовательно, текущие ограничения этих моделей, вероятно, будут еще более заметными на более сложных математических тестах.

Мы считаем, что необходимо продолжить исследования для разработки моделей искусственного интеллекта, способных к формальному рассуждению, выходящему за рамки распознавания шаблонов, чтобы достичь более надежных и универсальных навыков решения задач. Это остается важной задачей для области, поскольку мы стремимся создать системы с когнитивными способностями, близкими к человеческим, или общий искусственный интеллект.

Мои выводы.

А вот сейчас будет интересно, потому что старого политинформатора на мякине не проведешь ?

? На самом деле дискуссия идет давно. И скорее весы смещались к тому, что все же LLMs может чуть ли не все. И примеры есть решения более сложных математических задач. Да и OpenAI выкатил анонсы будущих продуктов, где есть и учебная программа по математике(!). Поэтому статья "ученых из Apple" шороху навела. Попытаемся взглянуть с разных сторон.

? Apple здорово опоздал к раздаче пирогов со своим ИИ. И чисто политически ему выгодно сейчас сказать, что все, от чего весь мир в восторге, не то чем кажется и фигня полная. Но свет в конце тонеля есть, надо над другими моделями работать. И.... через какое-то время "неожиданно" Apple появится как спасатель ИИ с моделью новой структуры, которая в математику то и логику то умеет, чем заберет флаг первенства у OpenAI.

⚠️ Если я прав, то скоро мы это увидим, потому что модель уже должна быть. Засекаем время и помним, что это должна быть не LLMs в современном понимании.

? Думаю, OpenAI ограничения своих (а там и не только его) моделей прекрасно понимает и пытается из них побыстрее выжать максимум денег, выкатывая новые коммерческие продукты, пока широкая публика не закричала "Царь то не настоящий!".

? Выводы лично для меня при работе с ChatGPT.
Мой опыт.
Да, ChatGPT постоянно зацикливается, пишет неправильный код, и приходится использовать разные модели ChatGPT, чтобы одна выдавала ответ, а вторая искала в нем ошибки (модель критик - иногда это помогает). И да, иногда даже слабое изменение условий сильно влияет на весь результат. А иногда наоборот, вносишь серьезные изменения в задачу, а он тупит и выдает все тоже самое. И в длинном контексте путается, теряет суть.

И что же мне делать?

  1. Использовать разные модели, симбиоз разных моделей.

  2. Идти этапами в решении задачи.

  3. Лучше завести больше чатов, чем один, но большой.

  4. Более четко прописывать задачу.

‼️ Но! Если вы решаете стандартные задачи. А под них попадает 99%. То ChatGPT пока лучший (при том, что я не люблю OpenAI). И да, зачастую со сложностями, но с ним вы все же получите результат. Это сэкономит огромное количество времени и позволит вам почувствовать себя рыбой в темах, на полное изучение которых для решения таких задач абсолютно самостоятельно могли бы уйти месяцы и годы.

Всегда ваш, lanchev_pro_ai

p.s. На 11:20, меньше чем через 2 часа после публикации мне на 2 снизили карму. Вы серьезно? Чем же вас так задело мое мнение (официальный формат на Хабре, кстати)? Я вас чем-то оскорбил? Лично обидел? Или вы просто не приемлите все, что не совпадает с вашим видением мира? Вот интересно. Что вызвало настолько негативную реакцию, что человек не поленился зайти в профиль и ткнуть минус, излив злобу? Легче стало?

Комментарии (16)


  1. MountainGoat
    13.10.2024 06:37

    Вкратце: LLM очень хреново делают то, для чего не приспособлены.

    То ChatGPT пока лучший (при том, что я не люблю OpenAI).

    Похоже, Clause 3.5 автор не видел, Perplexity тоже.


    1. EddyLan Автор
      13.10.2024 06:37

      Автор много чего видел. Для его задач ChatGPT лучший.


  1. avshkol
    13.10.2024 06:37

    Перплексити делает ту же ошибку, но пойдём дальше и спросим прямо:

    возможно, в задаче содержится попытка обмануть решающего, чтобы он дал неверный ответ?

    И вот ответ:

    Да, в задаче действительно есть элементы, которые могут ввести в заблуждение и привести к неверному ответу. Рассмотрим, как именно это происходит:

    Элементы обмана

    1. Условие о воскресенье: Заявление о том, что Оливер собрал в воскресенье в два раза больше киви, чем в пятницу (88 киви), может создать впечатление, что все эти киви следует учитывать. Однако добавление информации о том, что 5 из них оказались меньшего размера, может запутать решающего.

    2. Неясность: Упоминание о 5 "непригодных" киви может заставить решающего подумать, что эти киви не должны учитываться в общем количестве. Это может привести к ошибочному выводу, если не обратить внимание на то, что фактически собранные 83 киви все равно должны быть включены в общий подсчет.

    3. Логическая ловушка: Решающий может сосредоточиться на условии о размере и решить, что это как-то влияет на итоговую сумму, хотя на самом деле это просто дополнительная информация.

    Заключение

    Таким образом, задача действительно содержит элементы, которые могут сбить с толку и привести к неправильному ответу. Это делает её интересной для анализа и подчеркивает важность внимательности при решении задач с условиями.

    Теперь понятно: модели "доверяют" спрашивающему, не ждут от него подвоха, поэтому пытаются использовать всю предоставленную информацию. И ещё момент - 5 киви, которые меньше среднего, она назвала "непригодными", хотя человек посчитал бы непригодными только те, что нельзя съесть (гнилые, неспелые). И она понимает, что это может быть лишь дополнительной информацией, которую не нужно учитывать. Но человек-бюрократ, предположим, пытавшийся регулировать рынок киви, вполне мог бы согласиться с LLM.


    1. EddyLan Автор
      13.10.2024 06:37

      Конечно, вы правы. Конечно, эпловцы не просто так написали статью )

      Но с другой стороны. Давай заглянем в учебники начальной школы для человеческих детей, а не для роботов. Там полно задач, условия которых вводят в заблуждение. И ребенок должен понять, что в условии брать в расчет, а что нет. Так ребенка пытаются научить логике.

      И получается, что LLM все же логике на человечесеом уровне начальной школы так и не научилась.


      1. N-Cube
        13.10.2024 06:37

        Давай заглянем в учебники начальной школы для человеческих детей…

        Это где теория эволюции и прочая кибернетика с термодинамикой лженауками называются? Давайте уж вы как-то без нас туда заглядывайте, к науке это вообще отношения не имеет.

        Там полно задач, условия которых вводят в заблуждение. И ребенок должен понять, что в условии брать в расчет, а что нет. Так ребенка пытаются научить логике.

        Логика оперирует фактами, а не мнениями (то есть степенью важности фактов по мнению задающего вопрос). А чтобы степень важности определить достоверно, тоже нужны факты, но они в условие задачи не поместятся. Возьмите нормальные учебники, хотя бы «логику» для школ из СССР - если политпросвет выкинуть, вполне актуально. А «пытаются научить» это абсурд, как «осетрина второй свежести» (с).


        1. myswordishatred
          13.10.2024 06:37

          Это где теория эволюции и прочая кибернетика с термодинамикой лженауками называются?

          Это где вы такие учебники начальной школы видели?


  1. deepmind7
    13.10.2024 06:37

    "ChatGPT постоянно зацикливается, пишет неправильный код"

    Про какую версию идёт речь, что-то в статье не увидел?

    По моему опыту 4o и 4о-mini очень хорошо справляются с кодом, и для всех задач мне мини хватает за глаза. А есть ещё о1, там вроде даже ещё круче.


    1. EddyLan Автор
      13.10.2024 06:37

      Я работаю со всеми доступными в платной версии моделями, включая новые превью и канву. Работаю с разными языками и для разных целей.

      Работаю также с задачами не для кодинга и машинного обучения. Например, задачи бизнес-аналитики, описание проектов, бытовые вопросы, жизненные, здоровье и медицина и тд.


      1. janvarev
        13.10.2024 06:37

        Ну, просто нормой для оценки LLM моделей как-то является указывать "с какой именно моделью вы работаете".

        ChatGPT - нет такой модели. Это некий стек технологий от OpenAI, там может быть что-то навернуто (промты, тулы, доступ в интернет или нет и пр.). А так есть модели gpt-4o, gpt-4o-mini и пр.

        На суть содержания статьи это не влияет, но вообще-то это правильно. Кстати, в графиках статьи от Apple, которую вы приводите, вполне точно и конкретно описано, на каких моделях производилось измерение.


        1. EddyLan Автор
          13.10.2024 06:37

          Да, статья от эпловцев написана по всем стандартам научным, даже список литературы присутствует. Поэтом да, модельки поименованы и даже датасеты разные.

          Что касается меня и моделек OpenAI. После выхода 4ки это все одна модель на мой взгляд. Разницу создают лишь агенты (я про то, что доступно через веб-интерфейс). Это влияет на формат вывода и широту контекста, который подается в модель, но на само качество (опять же на мой взгляд для моих задач) это влияет мало. Те же яйца, только в профиль. У одной одно лучше отрабатывается, у другой другое. Поэтому для меня все это одно сплошное ChatGPT. В картах это называется "передергивание". Думаю, это одна из причин, почему старая команда OpenAI разбежалась. Не единственная, возможно, и не главная, но и не на последнем месте.

          p.s. после выхода следующих моделек исходная 4ка (которая сейчас у них значится старой) стала иначе работать, ответы стали короче - не значит лучше.


    1. N-Cube
      13.10.2024 06:37

      Возьмите любую научную статью из топового журнала и попробуйте с чатом воспроизвести вычисления, которые должны были авторы проделать для получения результатов, тогда и увидите, как чат «справляется». Вот кодит хорошо, да, а именно программировать, то есть придумывать и реализовывать новые алгоритмы и идеи, не умеет в принципе.


  1. T968
    13.10.2024 06:37

    Интересно, почему Ломброзо не упоминают как одного из основоложников ИИ

    https://ru.m.wikipedia.org/wiki/Ломброзо,_Чезаре

    Он ведь всё тоже самое делал, что и нынешние адепты.


  1. exwill
    13.10.2024 06:37

    "зацикливается, пишет неправильный код"

    традиционный вопрос в таких случаях: семплирование отключали?


    1. EddyLan Автор
      13.10.2024 06:37

      А такая функция появилась в веб-интерфейсе?


  1. kryvichh
    13.10.2024 06:37

    Реши задачу: Вася собрал 44 яблока в пятницу. Затем он собрал 58 яблок в субботу. В воскресенье он собрал в 2 раза больше яблок, чем в пятницу, при этом 5 яблок оказались меньше среднего размера. Сколько всего яблок собрал Вася? Рассуждай по шагам.

    Ответ Копилота:

    Конечно, давай решим эту задачу по шагам:

    1. Количество яблок, собранных в пятницу: Вася собрал 44 яблока.

    2. Количество яблок, собранных в субботу: Вася собрал 58 яблок.

    3. Количество яблок, собранных в воскресенье: Вася собрал в 2 раза больше яблок, чем в пятницу. Значит, в воскресенье он собрал: 44 * 2 = 88 яблок

    4. Общее количество яблок: Теперь сложим все яблоки, собранные за три дня: 44 + 58 + 88 = 190 яблок

    5. Учет яблок меньшего размера: Из 88 яблок, собранных в воскресенье, 5 яблок оказались меньше среднего размера. Однако, это не влияет на общее количество собранных яблок.

    Таким образом, Вася собрал всего 190 яблок.


    1. EddyLan Автор
      13.10.2024 06:37

      Аналогично ChatGPT.

      Чтобы решить задачу, давай разберем ее по шагам:

      1. Определим количество яблок, которые Вася собрал каждый день:

        • В пятницу Вася собрал (44) яблока.

        • В субботу он собрал (58) яблок.

        • В воскресенье он собрал в (2) раза больше, чем в пятницу, то есть: [ 44 \times 2 = 88 \text{ яблок} ]

      2. Вычислим общее количество яблок, собранных за три дня:

        • Суммируем яблоки, собранные в пятницу, субботу и воскресенье: [ 44 + 58 + 88 = 190 \text{ яблок} ]

      3. Учтем, что в воскресенье 5 яблок оказались меньше среднего размера.

        • В задаче нет необходимости вычитать их из общего количества, так как нас интересует общее количество собранных яблок, а не их качество или размер.

      4. Ответ:

        • Вася собрал всего (190) яблок.

      Таким образом, общее количество яблок, собранных Васей, составляет 190.