7 декабря 1962 года журнал Life International опубликовал логическую головоломку, состоящую из 15 предложений, описывающих пять домов на улице. Каждое предложение содержало подсказку, например: «Англичанин живёт в красном доме» или «Молоко пьют в среднем доме». Каждый дом имел свой цвет, в нём проживали люди разных национальностей, у которых были разные домашние животные и другие характеристики. Заголовок статьи гласил: «Кому принадлежит зебра?» Подобные задачи стали примером для оценки возможностей, а также ограничений современных моделей машинного обучения.
Эта задача, известная также как «загадка Эйнштейна» (хотя её связь с Эйнштейном, вероятно, является апокрифической), проверяет способность к многошаговому логическому мышлению. Нуха Дзири, научный сотрудник Института искусственного интеллекта Аллена, и её коллеги недавно провели эксперимент, в котором предложили крупным языковым моделям (LLM) на основе трансформеров, таким как ChatGPT, решать подобные задачи. В большинстве случаев модели не справились с заданием. Дзири отметила, что, возможно, такие модели не способны рассуждать за пределами тех данных, на которых они обучались, или их приблизительные вычисления могут быть ошибочными.
Загадка Эйнштейна требует построения сложного решения на основе решения более простых подзадач, что исследователи называют композиционной задачей. Команда Дзири продемонстрировала, что LLM, обученные преимущественно предсказывать следующее слово в последовательности, имеют фундаментальные ограничения в решении задач, требующих композиционного мышления. Другие исследования также показали, что трансформаторы, архитектура нейронной сети, лежащая в основе большинства LLM, сталкиваются с математическими ограничениями при решении подобных задач. Хотя учёные добились определённых успехов в преодолении этих ограничений, такие решения носят скорее временный характер. Это указывает на существование фундаментальных ограничений в вычислительных возможностях таких форм искусственного интеллекта, что поднимает вопрос о необходимости рассмотрения альтернативных подходов.
Эндрю Уилсон, эксперт по машинному обучению из Нью-Йоркского университета, не участвовавший в исследовании, отметил, что эта работа важна для того, чтобы помочь научному сообществу определить, является ли архитектура трансформеров оптимальной для задач универсального обучения.
![](https://habrastorage.org/getpro/habr/upload_files/752/b54/b02/752b54b02941d343b4af42e112c8b3a7.png)
LLM-модели сами выявили один из своих недостатков благодаря своим выдающимся способностям. Как отметил Дзири, именно их успехи в задачах, связанных с обработкой естественного языка, вызвали вопросы о том, действительно ли они способны рассуждать. На этапе обучения такие модели анализируют фрагменты текста с пропущенной частью, которую им предстоит спрогнозировать, и корректируют свои ошибки.
Крупнейшие модели, обученные на практически всех доступных в интернете данных, усваивают не только синтаксис, но и значительную часть семантических знаний письменного языка. Это позволяет использовать их для решения сложных задач, таких как обобщение информации и генерация программного кода. Однако, несмотря на впечатляющие результаты, модели порой демонстрируют ошибки и неожиданное поведение. По словам Дзири, они могут справляться с некоторыми задачами на удивление хорошо, а с другими — удивительно плохо.
![Нуха Дзири и её команда помогли продемонстрировать, с какими трудностями сталкиваются современные системы искусственного интеллекта при выполнении определённых задач, требующих логического мышления. Нуха Дзири и её команда помогли продемонстрировать, с какими трудностями сталкиваются современные системы искусственного интеллекта при выполнении определённых задач, требующих логического мышления.](https://habrastorage.org/getpro/habr/upload_files/8fd/684/096/8fd6840965fb66382e2804d84188b562.png)
Обычные задачи, такие как умножение, остаются вызовом для стандартных больших языковых моделей, включая ChatGPT и GPT-4. В начале 2023 года команда Дзири провела эксперимент, попросив GPT-4 перемножить два трёхзначных числа. Результаты оказались неутешительными: модель справилась с задачей только в 59% случаев. Когда её попросили умножить два четырёхзначных числа, точность резко снизилась до 4%.
Кроме того, модель протестировали на решении так называемой загадки Эйнштейна. На простом уровне задачи, где присутствуют два дома и у каждого по две характеристики, GPT-4 всегда давал правильный ответ. Однако при увеличении сложности до четырёх домов и четырёх характеристик точность упала до 10%. В оригинальной версии задачи из журнала Life International, которая предполагает пять домов и пять характеристик у каждого, модель не смогла справиться с задачей ни разу.
Предполагая, что недостаток практики мог быть причиной таких результатов, команда Дзири дообучила GPT-3 на массиве из 1,8 миллиона примеров умножения. Это улучшило способности модели, но только для задач, схожих с теми, которые были в обучающих данных. Например, если данные включали умножение двух трёхзначных чисел и комбинации двузначных и четырёхзначных чисел, модель справлялась с аналогичными примерами. Однако когда ей предложили перемножить четырёхзначное число на трёхзначное, точность выполнения составила всего 2%. «Если модели действительно понимают задачу и умеют рассуждать, они должны выявлять неявные алгоритмы», — отметила Дзири. Но её команда этого не наблюдала. «Это вызывает много вопросов о том, как LLM решают задачи и обладают ли они настоящими навыками рассуждения».
Аналогичная закономерность проявилась при решении загадки Эйнштейна. GPT-3 не смог успешно справиться с более сложными версиями головоломки, отличными от тех, которые использовались при обучении. «Он имитирует то, что видел, но не полностью понимает это», — резюмировала Дзири.
Жесткие ограничения
Пока Дзири с коллегами дорабатывали свои исследования, другая команда пошла иным путём, чтобы понять, почему LLM испытывают трудности с решением композиционных задач. Бинхуэй Пэн, на тот момент аспирант Колумбийского университета, совместно с Кристосом Пападимитриу и другими исследователями пытался выяснить природу феномена «галлюцинаций» — ситуации, когда модель генерирует недостоверную информацию. Пэн, ныне научный сотрудник Стэнфордского университета, предположил, что причина кроется в отсутствии у трансформеров способности к композиции.
Чтобы понять эту проблему, представьте сценарий: модель получает два факта — «Отцом Фредерика Шопена был Николя Шопен, а Николя Шопен родился 15 апреля 1771 года». Если затем спросить модель, когда родился отец Фредерика Шопена, ей необходимо объединить два факта и ответить правильно. По сути, это требует решения вложенного вопроса: «Какова дата рождения (Кто является отцом (Фредерика Шопена)?)». Если модель выдаёт неверный ответ, это считается результатом её неспособности справиться с композиционной задачей, что приводит к «галлюцинациям».
Пэн решил проверить эту гипотезу и начал с изучения простого трансформера, состоящего всего из одного слоя. Такой трансформер обучается «обращать внимание» на порядок и расположение слов в предложении, чтобы предсказать следующее слово. В современных моделях таких слоёв гораздо больше, но команда Пэна сосредоточилась на простом варианте, чтобы выявить фундаментальные ограничения. Они обнаружили связь между сложностью слоя и «размером домена» — количеством битов, необходимых для представления вопросов. Команда математически доказала, что если общее количество параметров в однослойном трансформере меньше размера домена, то он не сможет решить композиционную задачу. Это свидетельствует о явном и математически обоснованном ограничении.
Несмотря на убедительность этого результата, его практическая значимость оставалась неясной из-за сложности современных моделей. «Расширить наше доказательство непросто», — отметил Пэн. Чтобы изучить возможности более сложных трансформеров, команда обратилась к теории вычислительной сложности, которая рассматривает задачи с точки зрения ресурсов, таких как время и память, необходимых для их решения.
![Бинхуэй Пэн входит в состав команды, которая показала, что трансформеры, лежащие в основе большинства крупных языковых моделей, имеют математические ограничения в своих возможностях. Бинхуэй Пэн входит в состав команды, которая показала, что трансформеры, лежащие в основе большинства крупных языковых моделей, имеют математические ограничения в своих возможностях.](https://habrastorage.org/getpro/habr/upload_files/0a4/fce/0d1/0a4fce0d191bf1913558adf4a4ceea7f.png)
В конечном итоге исследователи использовали известную гипотезу для демонстрации того, что вычислительные возможности многослойных трансформеров остаются ограниченными, когда речь идёт о сложных композиционных задачах. В декабре 2024 года Пэн и его коллеги из Калифорнийского университета в Беркли представили доказательство, которое не опирается на гипотезы о вычислительной сложности. Оно подтверждает, что даже многослойные трансформеры неспособны решить определённые сложные композиционные задачи. Это означает, что определённый класс таких задач всегда будет недоступен моделям, построенным на архитектуре трансформеров.
Пэн отметил, что увеличение размера модели позволяет справляться с более сложными задачами. Однако при одновременном усложнении самих задач модели снова сталкиваются с ограничениями. Это указывает на фундаментальные пределы архитектуры трансформеров.
Это не конец
Стоит подчеркнуть, что выявленные ограничения вовсе не означают конец для LLM. Уилсон из Нью-Йоркского университета отмечает, что исследователи активно работают над улучшением возможностей трансформеров, включая их способность решать арифметические задачи. Так, Том Голдштейн из Мэрилендского университета с коллегами предложили новый подход к представлению чисел для трансформеров, обучающихся сложению. Они добавили «позиционную» информацию к каждой цифре, что позволило модели, обученной на 20-значных числах, с высокой точностью (98%) складывать числа длиной до 100 цифр. Без такого дополнения точность аналогичной модели составляла всего 3%. Уилсон отметил, что такие изменения могут значительно улучшить работу моделей без необходимости полного пересмотра их архитектуры.
Ещё одним способом преодоления ограничений трансформеров является пошаговое подталкивание — метод, при котором задача предлагается модели для решения поэтапно. Эмпирические исследования показали, что такой подход может расширить возможности LLM, включая GPT-4, и позволить им справляться с более широким спектром задач. Почему этот метод работает столь эффективно, до конца не ясно, и исследователи продолжают изучать это явление. «Нам было интересно, почему он настолько эффективен и позволяет делать так много нового», — отметил Йе Хаотань, аспирант Стэнфордского университета.
Когда Хаотянь был бакалавром Пекинского университета, он вместе с коллегами изучал поведение трансформеров при использовании подсказок в виде цепочки мыслей и без них. Их работа опиралась на теорию сложности схем — раздел информатики, исследующий сложность вычислений. Доказательство показало, что подсказки в виде цепочки мыслей разбивают сложную задачу на последовательность более простых подзадач. Это позволяет трансформерам справляться с более сложными композиционными задачами. «Это означает, что модель может решать задачи, относящиеся к более широкому и сложному классу вычислений», — отметил Йе.
Однако, как предупреждает Йе, их теоретический результат не гарантирует, что реальные модели смогут решать столь сложные задачи, даже используя цепочку рассуждений. Исследование лишь продемонстрировало, что трансформеры обладают теоретической способностью к этому, но их практическая реализация и обучение определяют, насколько близко они смогут подойти к этой границе возможностей.
Несмотря на впечатляющие достижения, эти выводы не противоречат результатам команд Дзири и Пэна. В основе работы LLM остаётся сопоставление шаблонов, и их потенциал ограничен математическими рамками. Подходы, основанные на цепочке рассуждений, лишь расширяют их возможности в этом сопоставлении, но не выводят их за пределы фундаментальных ограничений. Математические исследования подтверждают, что всегда можно найти композиционные задачи, которые превысят возможности конкретной системы. Даже более современные архитектуры, такие как «модели пространства состояний», рекламируемые как более мощные альтернативы трансформерам, сталкиваются с аналогичными ограничениями.
Для большинства пользователей это не имеет большого значения. «Широкой публике всё равно, рассуждает модель или нет», — отметила Дзири. Однако для тех, кто занимается разработкой и исследованием таких моделей, эти результаты крайне важны. «Мы должны действительно понимать, что происходит под капотом», — подчеркнула она. «Если мы разгадаем, как модели выполняют задачи и как они рассуждают, мы, вероятно, сможем их улучшить. Но если этого понимания нет, сделать что-то действительно сложно».
Всё это и много другое — ТГ «Математика не для всех»
Комментарии (33)
CBET_TbMbI
09.02.2025 18:13Пока все думают, почему эти нейросети не могут ответить даже на некоторые простые ответы, я не понимаю, как они вообще могут отвечать на такое количество самых разных вопросов.
dreesh
09.02.2025 18:13Там терабайты текста! Перебором можно построить любой "скрипт". У вас в словаре ~50 000 слов, но при этом некоторые слова не могут стоять рядом, значит есть ограниченный набор предложений которые можно составить и им обучить сеточку.
CBET_TbMbI
09.02.2025 18:13Так-то оно так, но всё же удивительно, что нейросеть может прочитать вопрос, состоящий из сотен слов (при этом точно такого вопроса в обучающем массиве нет) и выдать логичный и последовательный ответ на него, состоящий так же из сотен слов.
Я помню, лет 5 зазад Яндекс выпустил Балабобу, которая по началу тексту могла написать его продолжение. Вот там на самом деле была видна подгонка "чего-то похожего, но случайного". Но современные лидеры, даже со всеми их глюками, отвечают удивительно осмысленно.
Hardcoin
09.02.2025 18:13Комбинаторика не подтверждает. Даже если к слову можно приставить только сотню других на выбор (а не 50 тысяч), то 7 слов, уже сотня терабайт. А ведь это даже без формул.
Нет, на перебор это даже близко не похоже даже снаружи (внутри тоже не похоже, устроено совсем иначе)
akakoychenko
09.02.2025 18:13На простом уровне задачи, где присутствуют два дома и у каждого по две характеристики, GPT-4 всегда давал правильный ответ. Однако при увеличении сложности до четырёх домов и четырёх характеристик точность упала до 10%. В оригинальной версии задачи из журнала Life International, которая предполагает пять домов и пять характеристик у каждого, модель не смогла справиться с задачей ни разу.
Ну, какбы, очевидно. Однопроходная LLM без ризонинга это O(1). За один проход подобные задачи не решаются.
Proscrito
09.02.2025 18:13На фоне уже рабочих о1 и о3 статьи по gpt4 выглядят устаревшими.
И вообще сейчас статьи по ллм устаревают быстрее, чем выходят. Или, как минимум, переводятся
akakoychenko
09.02.2025 18:13Вот тут, все же, не соглашусь. Способность или неспособность модели с ризонингом решить задачу - явно не бинарная характеристика, а функция (ведь ризонинг может быть настроен сильно по-разному с разными шаблонами рассуждения, с разным количеством параллельных попыток на разных этапах, и так далее).
В случае базовых однопроходных моделей мы хотя бы можем нормально столкнуть лбами.
Как будто бы, пора вводить какую-то стандартизированную единицу потраченных усилий (вроде, как у автомобилей считают пробег на 1 галлон). Условно, 1 ллон, равный 1 триллиону fp16 операций, выполненных при наличии прямого доступа к 100ГБ данных в оперативной памяти. Тогда хоть можно будет адекватно сравнивать многопроходные модели. В том числе, использование более слабых моделей с более тяжёлым планом ризонинга против более сильных, но с менее нагруженным планом ризонинга
Hardcoin
09.02.2025 18:13А зачем? Конечно, это позволило бы более точно сравнивать расходы на решение задач, но нас ждёт ещё 2-3 порядка улучшений, сравнивать десятки процентов пока рано. А в два раза можно сравнить без новой единицы измерения
AlexIzimov
09.02.2025 18:13Удивительно, как вне зависимости от содержания и качества статьи, описывающие недостатки ии, получают апы, а хвалящие + минусуются
Arlekcangp
09.02.2025 18:13Потому что пришло время "закатить солнце", т е сдуть пузырь и снять сливки. Поэтому дана соответствующая команда своим сми. Причем исследования как были так и есть разные. Просто именно сейчас выпячивать в массы будут именно такие.
А пузырь объективно есть. Назвали улучшенный поиск прорывом и чуть ли не началом сингулярности...
Cheddar1789
09.02.2025 18:13Ну уж улучшенным поиском называть вещь, которая подстраивается под твой запрос - это слишком.
Ну и вообще, повежливее надо отзываться о нейронках. Через 20 лет Скайнет вам это зачтет.
zyaleniyeg
09.02.2025 18:13Трансформаторы?
zyaleniyeg
09.02.2025 18:13исследования также показали, что трансформаторы, архитектура нейронной сети, лежащая в основе большинства LLM, сталкиваются
proxy3d
09.02.2025 18:13Как LLM может не ошибаться например в этом случае? Когда выбор слова из множества вероятностей на последнем шаге в LLM случайный и зависит от температуры. Это как сидеть у рулетки и удивляться, почему ставил на Zero, а выпало 34 красное.
Описывал тут https://t.me/greenruff/2103
Там же писал, что для начала надо хоты бы добавить глобальный механизм внимания на этом этапе, аналогичный как при предсказании следующего слова. У нас таламус (и не только он) играет огромную роль на выбор слова, увидел яблоко - захотел есть - и во уже выбор слова в сторону "хочет", а не "интересуется" и пошла цепочка в другую сторону. Нет в мозге случайных процессов. Хаотичные есть, случайных нет.
TakeshiDev
09.02.2025 18:13Нет в мозге случайных процессов
А тут по подробнее, что считать "случайным", а что "хаотичным"?
И считаем тут мозг только здорового человека или нет?
proxy3d
09.02.2025 18:13Случайный процесс - это непредсказуемость событий, но может подчиняться определенным закономерностям в долгосрочной перспективе. Например бросание кости.
Хаотический процесс кажется беспорядочным, но он детерминирован и зависит от начальных условий, что делает его предсказуемым в теории, но на практике малые изменения могут привести к значительным различиям в результате. Поэтому хаотический процесс можно предсказать только до определенной границы. Например, предсказание погоды.
В случае хаотичного процесса, в реальности мы не можем предсказать его. Так как не может получить точное состояние всех процессов. Небольшое отклонение на в значениях на какое-нибудь 10^-6 приводит к совсем другим результатам через некоторое время.
Для примера выше градиенты речи (наклон частоты тона при речи). Кажется похож на нормальное распределение (случайный процесс). Но в реальности случайным процессом не является.
В плане выбора из множества слов это означает, что:
процесс зависит от начальных условий. То есть от сигналов других зон мозга, а они от внешнего воздействия (окружающий мир) и внутреннего (организма).
детерминирован. Детерминированная модель позволяет вам точно рассчитать будущее событие, без участия случайности. Хотя из за сложности системы и начальных условий мы этого не можем сделать. С другой стороны мы можем описать часть этих динамических процессов и опираться на свои начальные значения. Что собственно и делает к примеру механизм внимания (описывает механизм одного из процессов)
таким образом этот процесс зависит от других входных начальных условий. В частности от к примеру сигналов таламуса, гипоталамуса и других. Которые модулируют сигналы и усиливают выбор того или иного слова. Это происходит через выбор маршрута следования нейрона. Как стрелочник, который переключает маршрут поезда переводя стрелки на железо дорожных путях.
aik
Может быть, стоило просто научить GPT считать?
А то возникает ощущение, что они выдали GPT молоток и требуют при помощи молотка решать все задачи. Надо забить гвоздь? Молотите. Надо копать яму? Молотите. Надо вскипятить чай? Молотите.
Hardcoin
Просто? Мы не знаем, как научить LLM считать. Дать ей возможность запустить калькулятор можем, знаем как. Научить считать - не знаем.
aik
Ну так и дать ей калькулятор. Чтобы счетные задачи решались с его помощью, а не "статистически". Или цифры от букв не отличает?
Hardcoin
Так ей дали уже. Нейросети могут использовать вообще любой код (и пользоваться результатом). Конечно, если вы запустите оболочку, которая может только веса вычислять, результата не будет. Если возьмёте какую-либо агентскую, будет запускать программы.
Конкретные реализации (типа ChatGPT) могут и не использовать, но это личные предпочтения владельцев сервиса. Сами нейросети дать команду на запуск калькулятора уже могут (если им разрешено).
gfiopl8
Дал ей калькулятор через вызов функций. Смотрю в логи, вижу что часто (если не всегда) дергает калькулятор что бы посчитать 1+1 и частенько не дергает что бы посчитать 7869*3578 (сама при этом считает неправильно).
Если бы они могли нормально юзать калькулятор то он был бы встроенным, иначе нет никакого смысла делать его отдельным.
Proscrito
Чтобы они нормально юзали калькулятор, нужно им сказать "для математических вычислений используй калькулятор (скрипт, сервис - ватэвэр)". Чтобы каждый раз не говорить это в запросе, можно добавить это в предустановки модели. Сейчас все это позволяют вроде.
Дать моделям калькулятор можно, как и красную кнопку, но это не всем нужно. Поэтому в базу не входят. Зато есть библиотеки готовых предустановок на разные случаи жизни. Математических не искал, не сталкивался с необходимостью, но наверняка найдется что-то.
akakoychenko
Скорее, научится осознавать, что безошибочно считать она не умеет, и никогда уметь не будет (как, впрочем, и среднестатистический человек), и принудить всегда тянутся за калькулятором, когда надо выполнить любую операцию, включая 2+2
kryvichh
4-х значные числа я научил умножать. Всё дело в промте.
Hardcoin
Далеко не всё дело в промпте. Умножить числа из 10 знаков можно тем же алгоритмом, что и четырехзначные, человек на листочке это сможет, а нейросеть ошибается.
kryvichh
Я попробовал тот же промт на бесплатном Копилоте, но он ленивый, предлагает написать программу для такого подсчёта. Поэтому немного переписал промт, разложив на 2 запроса.
Hidden text
В итоге получил таблицу произведений на 100 строк (10*10 разрядов). И вставил столбец произведения в новый запрос:
В итоге Copilot досуммировал до 76 числа и завис.
Прости, Microsoft, если я вырубил вам сервер. :)
Надо бы на платном аккаунте попробовать, но у меня нету.
Hardcoin
Подход хороший. Проверил на o3-mini-high, к сожалению он запутался в нулях. Вот одна из промежуточных операций, потерял один ноль. В остальном правильно.
T13=3⋅10^7×6⋅10^7=18⋅10^14:
S13=7683955282200000000+180000000000000=7684135282200000000
Но гораздо интереснее следующий шаг. Я спросил, верно ли он сложил числа и бот решил сэкономить силы, ведь перепроверять 90 чисел долго (у меня один из множителей девятизначный, не стал переделывать). Он умножил примерно, потом проверил последние цифры, потом посчитал в логарифмах. Получил мизерную разницу и решил умножить своим способом, разделив не по разрядам, а на несколько слагаемых. Ответ на этот раз получил верный.
Вывод:
Разница в 1.62×10^12 составляет относительную погрешность порядка 2×10^−7 (0,00002 %), что чрезвычайно мало. Тем не менее, перепроверка показала, что второй способ (разложение второго множителя) даёт итог:
7754176207251907626.
Таким образом, можно сделать вывод, что в предыдущем подробном суммировании была допущена незначительная арифметическая погрешность, и корректный результат умножения чисел
938263047×8264394758
должен равняться
7754176207251907626.
Ответ:
Нет, сумма частичных произведений в первом варианте получилась с ошибкой. Перепроверка показывает, что правильное произведение равно
7 754 176 207 251 907 626.