Эволюция разных видов протекает своим путем, делая повороты в сторону той или иной физиологической особенности, тем самым выделяя ее на фоне других и развивая ее до максимальной эффективности. Кто-то прекрасно видит в темноте, кто-то способен находится подо водой длительное время, а кто-то получил самый сильный эволюционный дар. Дар, способный созидать и разрушать, понимать и осуждать, спорить, где спор уместен, и где ему места нет. Дар этот — интеллект, а получателем его является человек. Одним из проявлений интеллекта является умение решать задачи, от легких до сложных, задействующих не только накопленные знания и опыт, но и учитывающих новые условия. Определить, как именно человек решает сложные задачи довольно сложно, но ученым из Массачусетского технологического института это удалось. Какие методы были задействованы, что они показали, и какой же механизм использует мозг человека для решения сложных задач? Ответы на эти вопросы мы найдем в докладе ученых.

Основа исследования


Человеческий мозг находит решения сложных многоступенчатых проблем, которые гораздо более гибкие, чем те, которые изучаются искусственными системами. Когнитивные теории приписывают эту гибкость определенным алгоритмам, таким как иерархическая обработка информации и контрфактуальное рассуждение. Контрфактуальное рассуждение является важным строительным блоком нашего ментального ландшафта, позволяя нам представлять альтернативные описания нашего предыдущего опыта. Знакомый сценарий — это когда мы чувствуем необходимость пересмотреть наши предположения из-за неожиданного поворота событий, например, неожиданной развилки на дороге во время вождения, резкой эмоциональной реакции друга или поворота сюжетной линии книги или фильма. Эти ситуации заставляют нас пересматривать прошлые события и предположения и искать альтернативные интерпретации, которые могли бы предоставить правдоподобное объяснение наших наблюдений. Учитывая центральную роль контрфактуальных рассуждений в познании, необходимо понять вычислительные основы этой стратегии.

Люди обычно полагаются на контрфактуальности, когда сталкиваются с деревьями решений с иерархией сценариев «если–то», приводящих к разным результатам. Однако озадачивает то, что деревья решений по своей сути не требуют вычисления контрфактуальностей. Напротив, оптимальная стратегия вывода для решения дерева решений заключается в том, чтобы полагаться на апостериорное убеждение по всем состояниям в дереве. Однако в сложных задачах вычисление апостериорной вероятности чрезвычайно сложно и иногда неразрешимо. Любопытно, что именно в этих условиях люди полагаются на контрфактуальности, что говорит о том, что контрфактуальные рассуждения могут быть опорой, когда невозможно вычислить апостериорную вероятность. Однако несколько важных вопросов о вычислительной основе контрфактуальных рассуждений остались без ответа. Какие вычислительные ограничения мотивируют опору на контрфактуальности? Принимают ли люди вычислительно рациональный подход к использованию контрфактуальностей? Вносят ли вычисления контрфактуальностей субоптимальности в поведение? Если да, то каковы они?

Авторы исследования разработали простую и интуитивно понятную задачу принятия решений, чтобы ответить на эти вопросы. Задача требовала от участников вывести путь невидимого движущегося шара в лабиринте, используя частичные и неопределенные подсказки (1a). Задача включала два ключевых желательных параметра, необходимых для исследования вычислительных характеристик иерархического принятия решений и обработки контрфактической информации. Во-первых, геометрия лабиринта сталкивала участников с двухэтапной иерархически организованной проблемой принятия решений. Во-вторых, параметрический контроль неопределенности на каждом этапе принятия решения обеспечивал параметрический контроль над степенью, в которой контрфактические пересмотры могли бы улучшить решения. Сравнивая поведение участников с моделями вывода, реализующими различные когнитивные алгоритмы, ученые обнаружили, что люди используют иерархическую стратегию для последовательного решения задачи и, в случае неопределенности, пересматривают свои решения, рассматривая контрфактические. Кроме того, профили времени реакции участников и движения глаз предоставили доказательства того, что они полагались на иерархические и контрфактические рассуждения для решения задачи.

Затем был проведен ряд экспериментов для обратного проектирования вычислительных ограничений, из которых вытекают эти алгоритмы. Эксперимент 1 показал, что иерархическая стратегия является результатом узкого места, связанного с обработкой параллельных потоков доказательств. Эксперимент 2 показал, что компенсаторные контрфактуальные утверждения несовершенны из-за ограничений рабочей памяти. Эксперимент 3 показал, что люди вычислительно рациональны в том смысле, что степень, в которой они полагаются на контрфактуальные утверждения, зависит от точности их рабочей памяти.

Далее ученые использовали подход моделирования, чтобы проверить важность этих вычислительных ограничений для принятия контрфактуальной стратегии. Было обучено несколько моделей искусственной рекуррентной нейронной сети (RNN от recurrent neural network) выполнять ту же задачу, что и люди. Каждая из них была подвергнута различным подмножествам этих ограничений. Неограниченные модели приняли оптимальную стратегию, которая существенно отклонялась от поведения участников-людей. Добавление ограничений изменило поведение модели. Например, ограничение узкого места обработки сместило ответы модели в сторону иерархической стратегии, а ограничения рабочей памяти повлияли на степень, в которой модель полагалась на контрфактуалы. Примечательно, что модель, которая наиболее точно имитировала поведенческие шаблоны реагирования людей, была той, которая была подвергнута всем ограничениям, выведенным из поведения человека. Наконец, параметрический анализ моделей показал, что отдельные когнитивные алгоритмы, такие как оптимальный, контрфактуальный, постдиктивный и иерархический, можно более точно охарактеризовать как подразделения в континууме, которые нейронные системы могут принимать в зависимости от задачи и вычислительных ограничений.

Задача H-лабиринта



Изображение №1

Данная задача заключается в определении положения мяча, движущегося в иерархическом лабиринте, на основе времени подачи слуховых сигналов, когда мяч сталкивается с перекрестком в лабиринте. В каждом испытании мяч приближается к горизонтальному сегменту H-образного лабиринта сверху. Достигнув лабиринта, мяч становится невидимым и движется либо по левому, либо по правому горизонтальному рукаву. Достигнув соответствующего вертикального сегмента, мяч поворачивается вверх или вниз по одному из вертикальных рукавов и останавливается после достижения соответствующего выхода. После остановки мяча участники должны сообщить точку выхода. Участники должны определить траекторию мяча, используя частичную и неоднозначную информацию, предоставленную тремя короткими слуховыми щелчками. Первый щелчок происходит, когда мяч поворачивает в один из горизонтальных рукавов, второй — когда он входит в один из вертикальных рукавов, и третий — когда он достигает выхода. Время между первым и вторым щелчками (th) дает информацию о горизонтальном рукаве, в которое попадает мяч, а время между вторым и третьим щелчками (tv) дает информацию о последующем вертикальном рукаве. Участники должны измерить эти два временных интервала и выбрать путь, горизонтальные и вертикальные рукава которого совместимы с этими измерениями.

Подводя итог, участники должны вывести правильный путь из относительного времени слуховых щелчков. Геометрия лабиринта в форме буквы H приводит к двухуровневому дереву решений с неопределенностью в каждом узле. Длину как горизонтальных, так и вертикальных рукавов варьировали на основе пробы за пробой, чтобы изменять вероятности в каждом узле дерева решений и гарантировать, что участники используют гибкую динамическую стратегию вывода (1b). В исследовании длину горизонтальных рукавов обозначено как L (левый рукав) и R (правый рукав), а четыре вертикальных рукава как LU (левый вверху), LD (левый вниз), RU (правый вверху) и RD (правый вниз). Длины рукавов также можно выразить в единицах времени, отражающих, сколько времени потребуется движущемуся мячу, чтобы пересечь этот рукав: tL (левый рукав), tR (правый рукав), tLU (левый-вверх), tLD (левый-вниз), tRU (правый-вверх) и tRD (правый-вниз).

Ученые предварительно зарегистрировали наши гипотезы и анализы в Open Science Framework и набрали большую когорту онлайн-участников через платформу Prolific для сбора данных. Анализ поведения показал, что участники усвоили задачу и смогли использовать временные подсказки для определения точки выхода. Средняя производительность среди участников улучшилась в зависимости от разницы между горизонтальными и вертикальными рукавами (1c). Поэтому ученые приступили к анализу поведения на основе модели, чтобы сделать вывод о когнитивной стратегии участника.

Модели когнитивных вычислительных стратегий


Чтобы количественно исследовать участников стратегии, используемых для решения задачи, был рассмотрен ряд моделей, реализующих различные когнитивные стратегии с различной степенью оптимальности.


Изображение №2

Первая модель, которую назвали оптимальной моделью, выбирает точку выхода на основе стратегии максимального правдоподобия. Она выбирает путь, состав горизонтальных и вертикальных рукавов которого наиболее соответствует совместному распределению th и tv (вверху слева на 2a).

Вторая модель реализует иерархическую стратегию, разбивая задачу на два иерархически организованных последовательных решения (внизу слева на 2a). Сначала она использует th для выбора между горизонтальными рукавами, а затем использует tv для выбора между соответствующими вертикальными рукавами. Эта стратегия является субоптимальной, поскольку она не позволяет решению о первом рукаве извлекать пользу из информации о втором рукаве и наоборот. Например, модель может принять решение о левом горизонтальном рукаве на основе th, даже если tv не соответствует ни одному из двух левых вертикальных рукавов.

Третья модель реализует постдиктивную стратегию вывода (вверху справа на 2a). Эта модель функционирует иерархически, но откладывает свое первое решение до тех пор, пока не получит информацию о втором плече. Более конкретно, решение модели о горизонтальном рукаве обусловлено не только th, но и степенью, в которой tv согласуется с соответствующими вертикальными рукавами. Стоит отметить, что постдиктивная модель отличается от оптимальной модели тем, как вероятности четырех вертикальных рукавов входят в расчеты. Оптимальная модель обрабатывает вероятности четырех вертикальных рукавов отдельно.

Постдиктивная модель, напротив, полагается на сумму вертикальных вероятностей для каждой стороны, чтобы принять свое решение влево-вправо. Это суммирование делает постдиктивную стратегию неоптимальной, поскольку сумма не учитывает отдельные вероятности. Например, представьте себе испытание с очень высокой и очень низкой вертикальной вероятностью слева и двумя промежуточными вероятностями справа. Оптимальная модель в полной мере воспользуется этими различиями. Постдиктивная модель, для сравнения, будет иметь меньшую дискриминационную силу, поскольку две суммы будут похожи.

Четвертой стала иерархическая модель, которая дополнительно учитывает контрфактуальные предположения (внизу справа на 2a). Эта модель начинается с двухэтапной иерархической стратегии. Однако, если вероятность вертикальных рукавов на втором этапе ниже определенного порога, она пересматривает свое первое решение и выбирает между двумя другими вертикальными рукавами. В целом, контрфактуальное рассуждение не является оптимальным, поскольку припоминание информации из памяти несовершенно. Стоит отметить, что пересмотры в контрфактуальных моделях качественно отличаются от колебаний, которые происходят во время простого принятия решений. Колебания возникают из-за колебаний доказательств, тогда как контрфактуальные предположения возникают из-за преднамеренного процесса, который использует поздние доказательства для пересмотра более ранних обязательств.

Иерархические и контрфактуальные рассуждения у людей


Далее производилось сравнение производительности участников с моделями в различных геометриях H-лабиринта. Если предположить, что модели могут идеально измерять th и tv, их производительность будет тривиально равна 100%. Чтобы сделать модели более сопоставимыми с людьми, ученые предположили, что измерения времени являются шумными. Следуя скалярному свойству времени у людей, был смоделирован шум во времени с помощью гауссовского распределения, стандартное отклонение которого масштабируется с базовым интервалом с масштабным коэффициентом, известным как дробь Вебера (w).

Значение w подгонялось для каждого участника в независимой контрольной задаче T-лабиринта (вверху на 2b), в которой участники должны были различать два горизонтальных рукава, связанных с двумя временными интервалами (t1 и t2). При предположении скалярного гауссовского шума (в центре на 2b) ученые вычислили оценку максимального правдоподобия w на основе производительности участника в T-лабиринте (внизу на 2b). Были использованы подобранные значения w для каждого участника (вставка на 2c) для всех последующих сравнений моделей.

Важно отметить, что w оценили для каждого участника, используя независимую меру, основанную на результатах в задаче T-лабиринта. Этот подход позволил сравнить поведение участников в задаче H-лабиринта с когнитивными моделями (оптимальными, иерархическими и т. д.) без необходимости дополнительной оценки точности времени каждого участника, что обеспечивает более строгий подход к сравнению моделей.

Чтобы сравнить поведение моделей и участников, было вычислено перекрестно проверенное отрицательное логарифмическое правдоподобие каждой модели с учетом ответов каждого участника. Было обнаружено, что поведение участников наиболее точно отражалось контрфактической моделью; то есть модель выбора участников была наиболее похожа на таковую контрфактической модели. Среди участников контрфактуальная модель имела наименьшее перекрестно проверенное отрицательное логарифмическое правдоподобие по сравнению с другими моделями (2d). Что важно, при идеальной памяти контрфактуальная модель дает те же ответы, что и оптимальная модель. Однако эмпирически контрфактуальное рассуждение отклоняется от оптимальности из-за ограничений емкости рабочей памяти, необходимых для припоминания и обработки прошлых свидетельств. Соответственно, контрфактуальная модель имела дополнительный параметр, связанный с шумом рабочей памяти, для учета того, насколько хорошо участники вспоминают прошлую информацию. Была использована десятикратная перекрестная проверка, чтобы убедиться, что эта дополнительная сложность контрфактуальной модели не была вызвана переобучением.

Корреляции движения глаз со стратегией принятия решений


Чтобы дополнительно подтвердить роль иерархических и контрфактуальных стратегий в решении H-образного лабиринта, ученые попытались проанализировать движения глаз участников. Предыдущие исследования показали, что паттерн движений глаз во время задач на пространственное мышление может выявить поведенческую стратегию. Соответственно, ученые предположили, что участники могут делать движения глаз, указывающие на их стратегию. В частности, сдвиги глаз влево или вправо в начале испытания (например, после первого временного интервала) будут служить доказательством иерархической стратегии, а последующие пересмотры положения взгляда с одной стороны на другую будут служить доказательством для рассмотрения контрфактуальностей. Поскольку невозможно отслеживать движения глаз с помощью онлайн-экспериментов, ученые повторили эксперимент с небольшой группой новых участников в лаборатории, где могли тщательно измерить движения их глаз.


Изображение №3

Качественно движения глаз продемонстрировали доказательства как иерархических, так и контрфактуальных процессов. В частности, в начале испытания наблюдались движения левого и правого глаза, а в конце — пересмотры положения взгляда (3a). Количественный анализ движений глаз в разные периоды выполнения задания предоставил богатый набор данных для нескольких гипотез. Во-первых, общая частота иерархических саккад была относительно постоянной в зависимости от геометрии лабиринта, что говорит о том, что участники придерживались последовательной стратегии независимо от сложности лабиринта (3b). Во-вторых, частота правильных иерархических саккад снижалась для лабиринтов с более похожими горизонтальными рукавами, что говорит о том, что горизонтальные саккады отражали первоначальное решение участников влево-вправо (3b). В-третьих, контрфактуальные движения глаз чаще всего встречались в испытаниях, включающих трудные первые решения, где вычисление контрфактуальных ситуаций дает наибольшие преимущества (3c).

Наконец, основываясь на рамках вычислительной рациональности, ученые использовали контрфактуальные саккады, чтобы спросить, использовались ли контрфактуальные саккады для разрешения неопределенности и уменьшения ошибок. Если это так, можно ожидать, что доля контрфактуальных саккад будет выше в испытаниях, где начальная иерархическая саккада была неправильной, по сравнению с теми, где она была правильной. В соответствии с этим прогнозом анализ движения глаз выявил значительно более высокую долю контрфактуальных саккад после неправильных начальных саккад по сравнению с таковыми после правильных начальных саккад (3d).

В совокупности результаты движений глаз предоставляют дополнительные доказательства того, что участники полагались на иерархическую обработку информации для решения задачи H-лабиринта и рационально использовали контрфактуальные саккады, когда пересмотр первого иерархического решения был оправдан.

Одной из важных особенностей контрфактуальной модели является наличие третьего процесса принятия решения, связанного с принятием решения о том, следует ли рассматривать контрфактуальные варианты, и, если да, то последующей оценкой альтернативных сегментов рукавов перед принятием окончательного решения (2a). Поскольку каждое решение увеличивает время обработки, анализ времени реакции может предоставить дополнительные доказательства относительно того, использовали ли участники контрфактуальную стратегию и когда.

Анализ модели показал, что контрфактуальные варианты используются чаще, когда первое решение сложнее, то есть разница между двумя горизонтальными рукавами невелика. Соответственно, гипотеза о том, что участники вычисляют контрфактуальные варианты, предсказывает, что время реакции будет систематически увеличиваться с увеличением степени сложности первого решения. В соответствии с этим прогнозом среднее время реакции участников увеличивалось градуально с увеличением сложности первого решения. Этот вывод дает дополнительные доказательства того, что в случае неопределенности участники вычисляли контрфактуальные варианты.

Вычислительные ограничения принятия решений


Стратегия принятия решений участниками поднимает важные вопросы о базовых вычислительных ограничениях. Во-первых, почему участники не обрабатывают альтернативы параллельно? Во-вторых, почему контрфактуальные решения неоптимальны? Наконец, является ли рациональной опора участников на субоптимальные контрфактуальные решения (то есть знают ли участники, когда полагаться на контрфактуальные решения)? Чтобы ответить на эти вопросы, ученые провели три дополнительных крупномасштабных эксперимента на платформе Prolific.

Задача №1


Изображение №4

Ученые предположили, что иерархическая обработка информации может быть вызвана неспособностью обрабатывать несколько потоков доказательств параллельно. Чтобы проверить эту возможность, был разработан вариант задания, который можно было решить только путем параллельной обработки.

Участникам были представлены четыре отдельных рукава, каждый из которых служил каналом для отдельного шара (схема выше), что отражает вычислительную задачу одновременного обновления апостериорных вероятностей для четырех точек выхода в исходной задаче H-лабиринта для реализации оптимального параллельного решения. После предъявления слухового сигнала шары входили в четыре рукава, двигаясь с постоянной скоростью. Если шар достигал конца, он менял направление и продолжал двигаться с той же скоростью. Все шары продолжали двигаться до предъявления второго слухового сигнала, который совпадал с достижением одним случайно выбранным шаром конца рукава. В это время участникам предлагалось четыре выбора, связанных с четырьмя рукавами, и они должны были сообщить рукав, в котором шар находился на выходе. Важно отметить, что все параметры задачи, включая скорость мяча, длину рукавов и время движения, были идентичны параметрам H-лабиринта. Более того, введение реверсии направления отделило положение мячей от времени и вынудило использовать стратегию, в которой все мячи должны были отслеживаться одновременно, повторяя вычислительные требования решения задачи H-лабиринта с использованием оптимальной стратегии принятия решений.

Производительность участников в этой задаче была значительно ниже производительности идеальной модели наблюдателя, решающей эксперимент 1 с использованием подобранных значений w, измеренных для каждого участника отдельно в контрольной задаче. Относительно низкая производительность, связанная с параллельной обработкой, предполагает, что выбор участниками иерархической стратегии обусловлен узким местом, связанным с обработкой параллельных потоков доказательств.

Задача №2


Изображение №5

Идеальный наблюдатель, который полагается на контрфактуальные утверждения, должен, в принципе, иметь возможность достичь оптимальной производительности, поскольку контрфактуальные утверждения могут быть использованы для последовательной оценки всех возможностей. Однако для достижения оптимальной производительности обработка контрфактуальных утверждений должна быть без шума, иначе производительность упадет. Анализ поведения участников показал, что они полагались на контрфактуальные утверждения, но их производительность была неоптимальной. Из этого следует, что вычисление контрфактуальных утверждений может повлечь за собой дополнительный шум.

Чтобы напрямую проверить эту гипотезу, ученые разработали вариант задания, используя более простую геометрию T-образного лабиринта с двумя условиями (схема выше). Условие 1 аналогично исходной задаче H-образного лабиринта: мяч входит в лабиринт через вертикальный коридор и движется невидимо по лабиринту, в то время как слуховые сигналы указывают точки поворота и время, когда мяч достигает одного из двух выходов, и участников просят сообщить точку выхода. В условии 2 ученые изменили порядок предъявления стимулов таким образом, что Т-образный лабиринт был представлен после предъявления слуховых сигналов. Важно отметить, что в условии 2 участники должны решить задачу, используя контрфактуальные данные, то есть просмотреть прошлые доказательства из слуховых сигналов, чтобы оценить альтернативы, предлагаемые последующим предъявлением Т-образного лабиринта.

Гипотеза о том, что контрфактуальная обработка является шумной, предсказывает более высокий оценочный шум в условии 2 по сравнению с условием 1. Среди участников наблюдалось значительное увеличение оценочного шума в условии 2 по сравнению с условием 1, что показывает влияние шума контрфактуальной обработки на производительность.

Задача №3


Изображение №6

Далее была изучена ограниченная рациональность участников при использовании контрфактуалов. Согласно гипотезе ограниченной рациональности, участники должны учитывать деградирующий эффект шума обработки контрфактуалов и соответствующим образом титровать свою зависимость от контрфактуалов. В частности, эта гипотеза предсказывает большую зависимость от контрфактуалов при меньшем шуме обработки контрфактуалов и наоборот.

Чтобы проверить эту гипотезу, ученые использовали дисперсию производительности среди участников в эксперименте 2 и попросили тех же участников выполнить вариант задания H-лабиринта, в котором они могли выбирать, полагаться ли и когда полагаться на контрфактуалы (схема выше). В этом варианте участникам была представлена одна сторона H-лабиринта (левая или правая) во время предъявления слуховых сигналов. После этого участникам была предоставлена возможность выбора между двумя путями принятия решений. Они могли либо выбрать одну из двух видимых точек выхода в качестве окончательного ответа, либо попросить показать другую половину H-лабиринта, чтобы они могли контрфактуально оценить другие точки выхода.

Примечательно, что в испытаниях, где правильная точка выхода содержалась в скрытой половине H-лабиринта, доля испытаний, в которых участники показывали скрытую половину лабиринта, сильно коррелировала с их контрфактическим шумом обработки, индексированным по производительности в эксперименте 2. Напротив, такой корреляции не было обнаружено в испытаниях, в которых исходная половина лабиринта включала правильную точку выхода. Эти результаты показывают ограниченную рациональность участников, полагающихся на контрфактуальные данные.

RNN модель контрфактуального поведения


Поведенческие реакции в вариантах задач H-лабиринта выявили три характеристики человеческого принятия решений:

  • узкое место внимания, которое ограничивает параллельную обработку нескольких потоков информации;
  • контрфактуальный шум обработки, который вызывает неоптимальную производительность;
  • разумное использование контрфактуалов, которое учитывает этот шум обработки.

Однако одних только экспериментов на людях недостаточно для оценки причинно-следственной связи между этими характеристиками и стратегиями участников в задаче H-лабиринта. Чтобы устранить этот недостаток, ученые использовали модели нейронных сетей (RNN от recurrent neural network), которые предлагают мощную платформу для тестирования того, какие вычислительные ограничения имеют решающее значение для имитации когнитивных стратегий, подобных человеческим. Соответственно, было разработано несколько оптимизированных для задач RNN, которые затем были подвергнуты различным комбинациям этих ограничений, чтобы проверить, какие из них будут генерировать шаблоны поведенческих реакций, похожих на человеческие.


Изображение №7

Архитектурно модель получает два типа входных данных, имеет 128 повторяющихся единиц и генерирует два выходных данных (7a). Первый тип входных данных — это шестимерный (6D) вектор со значениями, связанными с геометрией H-лабиринта (Lin, Rin, LUin, LDin, RUin и RDin). Второй тип входных данных (Itime) — это двумерный (2D) вектор, определяющий временные интервалы, разграниченные тремя слуховыми сигналами (tm1 и tm2). Первый выходной сигнал определяет горизонтальный выбор модели (Lout против Rout), а второй выходной сигнал — вертикальный выбор (Uout против Dout) (7a).

Используя эту архитектуру, были разработаны различные оптимизированные для задач RNN, подверженные различным наборам ограничений. Базовая модель была обучена выбирать правильный выход без каких-либо дополнительных ограничений. При отсутствии какого-либо временного шума эта модель могла бы идеально решить H-образный лабиринт без каких-либо ошибок. Однако модель без шума нереалистична, поскольку она не учитывает скалярную изменчивость, которая влияет на поведение человека при выборе времени. Таким образом, ученые изменили Itime, добавив скалярный шум к tm1 и tm2 с долей Вебера w = 0.15, что находится в диапазоне, наблюдаемом среди участников (вставка на 2c). Как и ожидалось, введение временного шума привело к тому, что модель стала совершать ошибки. В дополнение к базовой модели были разработаны различные оптимизированные для задач RNN, подверженные одному или нескольким вычислительным ограничениям, наблюдаемых в ходе трех экспериментов с людьми. Ограничения, которые рассматривались, были следующими:

  • Узкое место внимания: это ограничение изменяет обучение таким образом, что RNN сначала делает выбор слева направо (Lout против Rout), а затем использует этот выбор для внимания либо к левой, либо к правой паре вертикальных рукавов. Это ограничение было реализовано с помощью мягкого шлюза внимания, который смещает вход, связанный с вертикальными рукавами, к левой или правой стороне H-лабиринта. По сути, это ограничение заставляет RNN решать задачу иерархически.
  • Контрфактуальный шум обработки: это ограничение изменяет обучение таким образом, что информация о времени, на которую опирается RNN, становится все менее надежной для каждой контрфактуальной ревизии. Это ограничение было реализовано путем добавления шума к tm1 и tm2 при каждой ревизии. Эта модификация аналогична предположению, что система подвержена контрфактуальному шуму обработки.
  • Рациональность: это ограничение изменяет обучение таким образом, что RNN учится выбирать выход, который наиболее соответствует ее шумным измерениям временного интервала (в отличие от правильного выхода). Это ограничение было реализовано с помощью функции стоимости, которая обеспечивает стратегию принятия решений с максимальным правдоподобием. Это, по сути, ограничение самосогласованности, поскольку решения принимаются только на основе информации, которая доступна модели.

Шаблоны ответов всех вариантов RNN были оценены путем вычисления логарифмической вероятности выборов RNN относительно выборов, связанных с различными когнитивными стратегиями (7b). RNN без узкого места внимания произвели шаблоны ответов, связанные с оптимальной стратегией (столбцы 1 и 2 на 7b). Этот результат ожидаем, поскольку RNN без узкого места внимания могут одновременно оценивать все возможные выходы. Включение узкого места внимания заставило RNN произвести шаблоны ответов, связанные с иерархической стратегией (столбцы 3 и 4 на 7b). Добавление ограничения рациональности позволило RNN переключить свое внимание между двумя сторонами и сгенерировать ответы, похожие на оптимальную модель (столбец 5 на 7b). Наконец, добавление шума контрфактуальной обработки позволило RNN сбалансировать выгоду вычисления контрфактуалов с ухудшающим эффектом контрфактуального шума. Полученная модель дала ответы, которые сочетали иерархические и контрфактуальные стратегии и наилучшим образом соответствовали ответам участников экспериментов (столбец 6 на 7b). RNN, которая была подвергнута всем ограничениям, была названа RNNbest.


Изображение №8

Затем ученые более внимательно изучили RNNbest, чтобы более тщательно оценить ее поведение (изображение №8). Сначала ученые убедились, что общая производительность RNNbest была схожа с производительностью участников-людей, и что ее ответы были чувствительны к различиям как горизонтальной, так и вертикальной длины рукавов (8a). Затем был проведен анализ сигнала «внимания» в RNNbest в рамках отдельных испытаний, чтобы оценить, опиралась ли сеть на контрфактическую стратегию. Чисто иерархическая стратегия предсказала бы, что RNNbest выберет левый или правый рукав после tm1 и один из соответствующих вертикальных рукавов после tm2. Другими словами, в рамках иерархической стратегии RNNbest никогда не переключала бы свой сигнал внимания на альтернативный горизонтальный рукав после tm2. Напротив, в рамках контрфактической стратегии RNNbest время от времени переключала бы свое внимание слева направо в зависимости от длины рукава и tm2.

Было обнаружено, что поведение RNNbest при единичной попытке действительно соответствовало контрфактуальной стратегии. Когда разница между длинами горизонтальных рукавов была большой, RNNbest принимала иерархическую стратегию с редкими пересмотрами (слева и посередине на 8b). В этих условиях окончательное решение обычно было правильным, когда разница между соответствующими вертикальными рукавами была большой (слева на 8b), и иногда неправильным, когда вертикальные рукава были более похожи (слева на 8b). Примечательно, что когда разница между длинами горизонтальных рукавов была меньше, RNNbest иногда пересматривала свое первое «слева направо» решение (выведенное из сигнала внимания) в зависимости от tm2 (справа на 8b). Это поведение переключения внимания систематически усиливалось при меньших различиях между горизонтальными рукавами, для которых первое решение было более неопределенным (8c). Эти поведенческие характеристики являются прямым доказательством того, что RNNbest решает задачу, используя комбинацию иерархической и контрфактуальной стратегий.

Наконец, ученые исследовали параметрическое влияние шума контрфактуальной обработки на поведение RNNbest. Подобно эксперименту 3 на людях, ученые предполагают, что частота, с которой RNNbest будет полагаться на контрфактуалы, уменьшится при более высоких уровнях шума контрфактуальной обработки. Результаты согласуются с этим прогнозом; доля переключений внимания систематически снижалась при более высоких уровнях шума контрфактуальной обработки. Одним из выводов, почерпнутых из этого анализа, было то, что выведенная стратегия сети качественно различалась для малых и больших объемов шума контрфактуальной обработки (σnoise). С одной стороны спектра, когда уровни шума были небольшими (σnoise < 0.2), сеть могла полагаться на контрфактуалы без каких-либо затрат, и, таким образом, ее поведение было неотличимо от оптимальной модели (8d). На другом конце спектра, когда уровни шума делали контрфактическую обработку слишком затратной (σnoise > 1.0), сеть редко полагалась на контрфактуальные, и, таким образом, ее поведение было неотличимо от иерархической модели. Другими словами, вычисления RNNbest были адаптивными и демонстрировали изящный переход от оптимального к контрфактуальному и иерархическому, причем контрфактуальная стратегия оказывалась наилучшим решением для промежуточных уровней шума (0.2 < σnoise < 1.0).

В совокупности эти результаты указывают на то, что стратегия участников-людей согласуется с прогнозами гипотезы ограниченной рациональности, регулируемой узким местом внимания и величиной контрфактуального шума обработки. Более того, непрерывный переход между стратегиями подразумевает, что отдельные когнитивные алгоритмы могут быть просто подразделениями в континууме стратегий под одной и той же целевой функцией.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог


В рассмотренном нами сегодня труде ученые попытались установить механизмы, лежащие в основе процесса решения задач человеком.

Простые задачи, такие как классификация объектов (где есть четкий правильный ответ: видим клавиатуру — отвечаем «клавиатура»), решаются человеком достаточно просто, быстро и весьма прямолинейно. Однако задачи более сложного характера, например планирование похода в кафе становится сложнее, ведь нет единого верного маршрута. Мы не знаем заранее условий выбранного нами пути, препятствий и т. д., которые могут на нем возникнуть. В такой ситуации мы все же может решить задачу, но не обязательно самым оптимальным способом. Проще говоря, сам факт ее решения уже достаточен, а степень верности уже не столь важна.

В таких ситуациях мы полагаемся на две основные эвристики — иерархические и контрфактуальные рассуждения. Иерархические рассуждения — это процесс разделения задачи на составляющие. Контрфактуальные рассуждения включают представление того, что бы произошло, если бы мы сделали другой выбор. Хотя эти стратегии хорошо известны, ученые мало что знают о том, как мозг решает, какую из них использовать в той или иной ситуации. Чтобы это выяснить, ученые разработали специальные задачи, которые участники экспериментов должны были решить.

В ходе исследования 150 участников попросили предсказать путь мяча, движущегося через скрытый лабиринт. Дополнительно участники получали звуковые сигналы, которые указывали на то, что мяч дошел до поворота или перекрестка путей внутри лабиринта. Задачи были спроектированы таким образом, чтобы их было сложно решить идеально (оптимально). Сложность в том, что при звуковом сигнале, указывающем на перекресток, человеку нужно было предсказать дальнейшее движение мяча по 4 потенциальным путям.

Вместо того чтобы решать задачу оптимально, люди полагались на две основные стратегии: иерархическое рассуждение, когда лабиринт был разбит на управляемые части, а решения принимались шаг за шагом; и контрфактуальное рассуждение, когда участники пересматривали предыдущие решения, если новые доказательства свидетельствовали об их неправоте. Однако не все использовали обе стратегии в равной степени. Участники, которые были более уверены в своей памяти сигналов, с большей вероятностью пересмотрели свои решения, в то время как те, у кого была более слабая память, как правило, придерживались своих первоначальных предположений.

Чтобы подтвердить свои выводы, исследователи создали модель машинного обучения, обученную выполнять ту же задачу. Когда модели были даны те же когнитивные ограничения, что и людям, например, ограниченная память или неспособность отслеживать все пути, она начала использовать те же стратегии рассуждения, что и участники-люди. Это говорит о том, что люди действуют рационально в пределах своих когнитивных ограничений, гибко адаптируясь к проблемам, переключаясь между более простыми ментальными инструментами в зависимости от ситуации.

Данное исследования является крайне важным для понимания того, как именно работает мозг человека. Это, в свою очередь, сможет помочь создать ИИ, который будет более точно его имитировать. Насколько это хорошая или плохая идея, пока рано судить. Главное, чтобы ученые не забывали уроки, которые нам преподносит научная фантастика.

Немного рекламы


Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Комментарии (0)