В своем подкасте я грозился сам почитать статью GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models ученых из Apple и разобраться. Почитал. Разобрался. Забавная статья. Забавная не по содержанию, а по выводам, которые можно сделать, если читать между строк и выйти за границы статьи.
Сначала совсем прямой смысл.
О чем говорят чувачки из эпла? Они пишут (перевод заключения статьи ниже в цитате), что большие лингвистические модели (LLMs, это разные GPT) умеют только в то, что видели в обучающем наборе данных, а в то, что не видели, они не умеют. То есть, никакой логикой они не обладают, даже элементарной!!! В математику они не умеют.
В статье они приводят разные примеры и толпу графиков. Я выбрал несколько для пояснения.
Если сместить немного содержание запроса от "правильного", добавив в него незначительные изменения, которые явно на результат запроса влиять не должны - то модель их учтет как значимые и изменит ответ с учетом этих условий (и ответ станет неправильным).
Даже небольшие изменения в запросах влияют на точность и разброс ответов модели. На графике выше видно, что кривая измененного запроса становится ниже и расползается вширь - это и есть оно самое.
А на этом скрине (выше) описана элементарная математическая задача: "паренек собрал столько то яблок в один день, столько то в другой и столько то в третий, сколько всего яблок?". GPT решает задачу правильно, если только не добавить в задачу условие "а 5 яблок немного меньше среднего" (имеется в виду размер, что никак не влияете на результат). И тут-то GPT, и не одна, ошибается. Это и есть демонстрация, что в математику GPT не умеет. По школьному GPT - это зубрила, а думать и рассуждать в новых условиях у нее получается слабовато. Ну и ученые говорят, что надо работать дальше и больше (то есть над другими моделями).
Свои личные выводы напишу в конце этой статьи, а пока перевод.
Перевод заключения из статьи эпловцев.
В этой работе мы исследовали способности больших языковых моделей (LLMs) к рассуждению и ограничения текущих методов оценки на основе набора GSM8K. Мы представили GSM-Symbolic, новый тестовый набор с несколькими вариантами, предназначенный для более глубокого понимания математических возможностей LLMs. Наше масштабное исследование показало значительную вариативность производительности моделей при различных изменениях одного и того же вопроса, что ставит под сомнение надежность текущих результатов GSM8K, основанных на одноточечных метриках точности. Мы обнаружили, что LLMs демонстрируют некоторую устойчивость к изменениям собственных имен, но гораздо более чувствительны к изменениям числовых значений. Мы также заметили, что производительность LLMs ухудшается по мере увеличения сложности вопросов.
Введение набора GSM-NoOp выявило критический недостаток LLMs в способности по-настоящему понимать математические концепции и различать релевантную информацию для решения задач. Добавление, казалось бы, значимой, но на самом деле несущественной информации к логическому рассуждению проблемы привело к значительному снижению производительности — до 65% для всех современных моделей. Важно отметить, что мы продемонстрировали, что LLMs испытывают трудности даже при наличии нескольких примеров одного и того же вопроса или примеров, содержащих похожую несущественную информацию. Это свидетельствует о более глубоких проблемах в их процессе рассуждения, которые нельзя легко устранить через обучение на нескольких примерах или тонкую настройку.
В конечном итоге наша работа подчеркивает значительные ограничения LLMs в способности выполнять истинные математические рассуждения. Высокая вариативность производительности моделей на разных версиях одного и того же вопроса, значительное падение производительности при небольшом увеличении сложности и их чувствительность к несущественной информации указывают на хрупкость их рассуждений. Это может больше напоминать сложное сопоставление шаблонов, чем истинное логическое мышление. Мы напоминаем, что и GSM8K, и GSM-Symbolic включают относительно простые школьные математические вопросы, требующие только базовых арифметических операций на каждом этапе. Следовательно, текущие ограничения этих моделей, вероятно, будут еще более заметными на более сложных математических тестах.
Мы считаем, что необходимо продолжить исследования для разработки моделей искусственного интеллекта, способных к формальному рассуждению, выходящему за рамки распознавания шаблонов, чтобы достичь более надежных и универсальных навыков решения задач. Это остается важной задачей для области, поскольку мы стремимся создать системы с когнитивными способностями, близкими к человеческим, или общий искусственный интеллект.
Мои выводы.
А вот сейчас будет интересно, потому что старого политинформатора на мякине не проведешь ?
? На самом деле дискуссия идет давно. И скорее весы смещались к тому, что все же LLMs может чуть ли не все. И примеры есть решения более сложных математических задач. Да и OpenAI выкатил анонсы будущих продуктов, где есть и учебная программа по математике(!). Поэтому статья "ученых из Apple" шороху навела. Попытаемся взглянуть с разных сторон.
? Apple здорово опоздал к раздаче пирогов со своим ИИ. И чисто политически ему выгодно сейчас сказать, что все, от чего весь мир в восторге, не то чем кажется и фигня полная. Но свет в конце тонеля есть, надо над другими моделями работать. И.... через какое-то время "неожиданно" Apple появится как спасатель ИИ с моделью новой структуры, которая в математику то и логику то умеет, чем заберет флаг первенства у OpenAI.
⚠️ Если я прав, то скоро мы это увидим, потому что модель уже должна быть. Засекаем время и помним, что это должна быть не LLMs в современном понимании.
? Думаю, OpenAI ограничения своих (а там и не только его) моделей прекрасно понимает и пытается из них побыстрее выжать максимум денег, выкатывая новые коммерческие продукты, пока широкая публика не закричала "Царь то не настоящий!".
? Выводы лично для меня при работе с ChatGPT.
Мой опыт.
Да, ChatGPT постоянно зацикливается, пишет неправильный код, и приходится использовать разные модели ChatGPT, чтобы одна выдавала ответ, а вторая искала в нем ошибки (модель критик - иногда это помогает). И да, иногда даже слабое изменение условий сильно влияет на весь результат. А иногда наоборот, вносишь серьезные изменения в задачу, а он тупит и выдает все тоже самое. И в длинном контексте путается, теряет суть.
И что же мне делать?
Использовать разные модели, симбиоз разных моделей.
Идти этапами в решении задачи.
Лучше завести больше чатов, чем один, но большой.
Более четко прописывать задачу.
‼️ Но! Если вы решаете стандартные задачи. А под них попадает 99%. То ChatGPT пока лучший (при том, что я не люблю OpenAI). И да, зачастую со сложностями, но с ним вы все же получите результат. Это сэкономит огромное количество времени и позволит вам почувствовать себя рыбой в темах, на полное изучение которых для решения таких задач абсолютно самостоятельно могли бы уйти месяцы и годы.
Всегда ваш, lanchev_pro_ai
p.s. На 11:20, меньше чем через 2 часа после публикации мне на 2 снизили карму. Вы серьезно? Чем же вас так задело мое мнение (официальный формат на Хабре, кстати)? Я вас чем-то оскорбил? Лично обидел? Или вы просто не приемлите все, что не совпадает с вашим видением мира? Вот интересно. Что вызвало настолько негативную реакцию, что человек не поленился зайти в профиль и ткнуть минус, излив злобу? Легче стало?
MountainGoat
Вкратце: LLM очень хреново делают то, для чего не приспособлены.
Похоже, Clause 3.5 автор не видел, Perplexity тоже.
EddyLan Автор
Автор много чего видел. Для его задач ChatGPT лучший.