Сегодня пост об уже не очень новом, но резонансном направлении в когнитивных науках – предиктивной обработке, также известной как предиктивное, предсказательное или прогнозное кодирование (Predictive Processing/Coding, далее PP). Свои истоки PP берет из (зрительного) восприятия, но с каждым годом основные принципы PP находят применение в новых областях, например восприятии языка, психиатрии и даже высшей когнитивной деятельности. Публикаций по PP в последние годы несметное количество, и все чаще можно встретить заявление, что PP — это первая глобальная современная парадигма об архитектуре человеческого разума. Тем не менее, суждения насчет подхода разнятся. Кто-то считает, что PP – революция в области, кто-то, что PP практически ничего не объясняет, а только создает иллюзию радикальной новизны и отвлекает людей от настоящей революционной борьбы продуктивной научной работы. На мой взгляд, PP подход нащупал что-то очень верное о работе мозга, хотя конечная история окажется намного сложнее и пестрее.
Под катом ознакомительный пост о PP, описывающий базовые принципы, предиктивное восприятие и действие, попытки применить эту парадигму к разным когнитивным процессам + немного критики.
Предиктивное восприятие
Визуальное восприятие долгое время считалось «пассивным»: сигналы о том, каков мир, поступают извне, обрабатываются и постепенно, уровень за уровнем, складываются в ментальную картинку. Как-то так:
Оставив тот факт, что эта идея не согласуется с экспериментальным находками (что в большой степени и повлекло развитие альтернативных теорий), к подходу есть чисто теоретические вопросы. Во-первых, подразумевается, что мозгу нужно получить всю информацию извне прежде, чем начать что-то с ней делать. Только затем эта информация передается дальше для последовательной многоступенчатой обработки. Способ медленный и неэффективный. Во-вторых, возникает Проблема Восприятия: если мы всего лишь считываем сигналы извне, ничего не добавляя, как возникают эффекты вроде того, что на видео?
Если вы не поняли, что происходит – маска вращается, поворачиваясь то выпуклой, то полой стороной. Мозг, однако, воспринимает ее как выпуклую даже когда она полая. Кстати, иллюзия усиливается, если лицо знакомое, и ослабевает, если оно перевернуто вверх ногами. Этот и многие другие эффекты восприятия (например, на картинке внизу) сложно объяснить в рамках описанного выше процесса, по крайней мере системно, с помощью одной теории. Еще более странная ситуация – галлюцинации, т. е., состояние, когда внешнего стимула для «увиденного» нет вообще, а воспринимаемый объект часто неотличим от реального. Думаю, не стоит объяснять, что галлюцинации не являются результатом поломки зрительного аппарата.
Предложение Гельмгольца, сейчас кажущееся почти очевидным, заключалось в том, что воспринимаемая картинка — это наши причинно-следственные «гипотезы» об окружающей среде, сконструированные с учетом накопленных знаний. Он говорил в первую очередь о зрении, но подход используется и для других типов восприятия. Другими словами, вместо того, чтобы просто считывать и «складывать» сигналы извне, мы, опираясь на предыдущий опыт, конструируем результат нашего восприятия учитывая внешний сигнал. Таким образом, восприятие – это активный, а не пассивный процесс.
Вот только сами по себе сенсорные сигналы неоднозначны и могут быть повлечены разными причинами. Упрощая: сидите вы вечером на даче и вдруг слышите скрип окна. Возможно, это ветер. А возможно – вор. Какую гипотезу выбрать? Может быть, звук больше похож на ветер, то есть эта гипотеза лучше подгоняется под данные. Но вдруг ваша опасная дача находится в очень криминальном районе? Тогда, учитывая опыт, логичнее (и практичнее) предположить, что окно распахнул вор.
По сути, это задача для Байесовского (статистического) вывода, в котором вероятность верности гипотезы определяется и обновляется на базе свидетельств. В примере с вором задачу об оптимальном выводе при наличии неопределенности решает когнитивный агент. Но идея заключается в том, что мозг делает примерно то же самое, на всех уровнях процедурной иерархии, включая самые нижние ступени обработки визуальной и другой сенсорной информации.
Теперь вопрос: как это эффективно осуществить? Прямое решение Байесовской задачи опять-таки дело ресурсозатратное. Тут-то на выручку и приходит PP. Мозг постоянно создает и обновляет иерархические генеративные модели мира (включая и состояния самого агента), которые в широком смысле можно назвать причинно-следственными. А для того, чтобы делать это эффективно, он использует предиктивную кодировку (predictive coding), по принципу работы схожую со стратегией компрессии данных для кодировки серии последовательных кадров. В англоязычной литературе predictive coding и predictive processing часто используются как взаимозаменяемые, хотя, технически, predictive coding – более узкое понятие.
Есть у вас, например, кадры с бегущей лошадкой, которые вы хотите сохранить в оцифрованном варианте. Один вариант – сохранить каждое изображение полностью. Но более экономично – сохранить первый кадр, а из последующих – только изменения относительно предыдущего, а по этим изменениям затем реконструировать весь фильм. Идея – обрабатывать только ту информацию, которая несет в себе какую-то новизну.
Для мозга новизна – это тот сигнал, который он «не ожидал». Если в случае с лошадкой такой сигнал – это разница между двумя кадрами, то для мозга — разница между сформированными гипотезами (предсказаниями) и неучтенными элементами сигнала. Эта ошибка называется ошибкой предсказания или предиктивной ошибкой (prediction error).
Выигрышные гипотезы на каждом уровне иерархической модели отбираются по принципу того, как хорошо они минимизируют предиктивную ошибку, т. е. как хорошо они предсказывают последующую нейронную активность. Хотя модель постоянно изменяется, в принципе, гипотезы-победители составляют то, что в данный момент мозг считает текущим состоянием «в мире».
Таким образом поток информации в PP двухсторонний. «Сверху вниз» транслируются предсказания, которые отображают то, что система ожидает с учетом предыдущего опыта, и того, что она считает важным и релевантным. А «снизу вверх» – предиктивная ошибка между двумя соседними уровнями. Все это происходит одновременно на каждом уровне, постепенно изменяя модель пока система не придет к стабильному состоянию, картине текущей ситуации, где предиктивные ошибки больше не регистрируются или не имеют надлежащего веса (об этом ниже). Важно здесь и то, что в итоге мы приходим не обязательно к реальной картине мира, а к картине мира приближенной к реальной ровно настолько, чтобы не противоречить получаемой из вне взвешенной информации. Таким образом, воспринимаемая нами «картинка» – это не объективная реальность, а просто модель удовлетворительная для решения наших задач.
Ожидаемая точность
Хотя сигналы, поступающие извне, и неоднозначны, в разных контекстах степень этой неоднозначности разная. Соответственно, в каких-то случаях доверять (придавать большой вес) собственным предсказаниям полезно и прекрасная экономия когнитивных ресурсов, а в каких-то лучше пристальнее «приглядеться/прислушаться» к сенсорному сигналу. Например, в тумане ориентироваться на визуальную информацию бесполезно. А вот рассмотреть мельчайшие детали на картине без «внимания» к сенсорному сигналу никак. Иначе говоря, для того чтобы максимизировать успех предсказаний, нужно иметь предсказания второго уровня о том, насколько мозг должен полагаться на свои предсказания или, что в итоге то же самое, брать ли в учет (и в какой степени) предиктивную ошибку. То есть, в конце концов, передаваемая выше предиктивная ошибка только частично определяется тем, насколько предсказания совпадают с полученной информацией из вне. Влияет еще и ожидаемая точность (precision weighting).
Изменение ожидаемой точности, по сути, регулирует вклад восходящего сигнала. Баланс системы может меняться между более восходящей (где главенствуют сенсорные сигналы) и нисходящей моделью (где главенствует предиктивная ошибка) путем изменения ожидаемой точности сигнала об ошибке/предсказаний. Более того, поскольку точность может варьироваться индивидуально на разных уровнях, селективное изменение точности на конкретном уровне может увеличить его влияние на уровни выше, в то же время делая этот уровень менее восприимчивым к сигналам о предиктивных ошибках снизу. Нейрофизиолог Карл Фристон сравнивает это с наймом менеджера: менеджер получает голос в компании и передает необходимую (по его усмотрению) информацию начальнику выше, в то время как проблемы на более низких уровнях решаются локально, не доходя до высокого начальства.
Ожидаемая точность – важная, но довольно тонкая часть предиктивной системы. Если баланс утрачен, например, слишком велик вес сенсорного сигнала, система не может распознавать паттерны. Если наоборот – начинает «навязывать» несуществующие. Эта особенность, что предсказуемо, привлекла внимание психиатров, в частности, в области компьютерной психиатрии, которая занимается моделированием различного рода психических расстройств на основе предполагаемых когнитивных архитектур. PP дает очень конкретные идеи о том, где что-то может пойти не так (вариантов в базовой версии немного – предиктивные ошибки, предсказания и ожидаемая точность). В то же время проблемы с одним или несколькими элементами архитектуры PP отлично перекладываются на симптомы различных психических расстройств, когнитивных особенностей и редких феноменов восприятия. За последние несколько лет появилось множество описаний, базирующихся на PP (большинство – на идее поломки механизма оценки ожидаемой точности). Cреди них – модели психоза, дереализации и деперсонализации, депрессивного расстройства, посттравматического расстройства, аутизма и синдрома Третьего Человека.
Кстати, возвращаясь к иллюзии с маской, объяснение с позиции PP заключается в том, что наш огромный предыдущий опыт выпуклых лиц доминирует над восприятием (мы не восприимчивы к сенсорному сигналу). Если лицо знакомое, это еще больше усугубляет опору на предсказания, а если привычная форма изменяется (лицо перевернуто), мы становимся более восприимчивым к сигналу и иллюзия ослабевает.
Предиктивное действие
Пока мы говорили по большей части только о восприятии. Модели психических расстройств, конечно, часто выходят за эти рамки. Но, в эту картину можно включить и моторную деятельность. По сути, минимизировать предиктивную ошибку можно двумя способами. Либо внести изменения в свою модель, для улучшения ее соответствия реальности, либо попробовать подогнать реальность под модель за счет «действия». Например, если мое предсказание – чашка горячего шоколада в руке, а чашка, увы, на столе, отличный способ минимизировать ошибку – поднять чашку.
В совершении моторного действия участвуют как предсказания о состоянии окружающей среды, так и предсказания o проприоцепции (ощущениях о положении собственного тела), которые должны привести к успешному действию, т. е., например, предсказания относительно сенсорного потока, который приведет к чашке в моей руке. Это очень эффективный метод исполнения двигательных команд. Существует и радикальная версия – проприоцептивные предсказания не просто участвуют в процессе вызова, а напрямую вызывают действие (т. е. команд никаких нет, есть только предсказания). При этом предсказания не просто помогают воплотить действия, действия также помогают сформировать предсказания и являются важными аспектами обработки информации и формирования гипотезы о происходящем вокруг.
Таким образом, восприятие и действие с точки зрения PP – это комплементарные манифестации одного и того же адаптивного режима, основанного на принципе минимизации предиктивной ошибки. Такой двойной процесс минимизирования предиктивной ошибки (за счет изменения модели и за счет «подгонки мира» к предсказанию) называется активным выводом или активной инференцией (active inference).
Направление активной инференции в PP очень активно развивается, и некоторые теоретики даже считают, что активная инференция в человеческой системе во многом преобладает над инференцией восприятия и служит как для эпистемического, так и для практического действия (то есть и для исследования мира, и для его эксплуатации). Недавно, кстати, был запущен первый стартап применяющий принцип активной инференции для решения прикладных задач.
Принцип активной инференции позволяет скинуть некоторую когнитивную работу на сенсорное восприятие. Классический пример – поимка мяча. Один способ – это вычислить траекторию движения. Сложно и неэффективно. А можно просто бежать и позволить мячу двигаться в поле зрения с постоянной скоростью (это называется активация оптического ускорения), т. е. взаимодействовать с миром, а не пытаться его «просчитать». Как было замечено выше, предиктивные агенты работают скорее на удовлетворительно, чем оптимизируют и максимизируют. Используемая эвристика должна быть всего лишь «достаточно хороша» для своей задачи.
Активная инференция – отличный способ обучения. Например, физическая манипуляция объекта может помочь генерировать информацию о его особенностях. Этот способ используется в робототехнике. Робот из этой статьи научился распознавать границы объектов с помощью датчиков движения и простого тыканья и толкания. Обучение через действие можно связать и с ранним развитием человека. Почти случайные движения младенца – способ накопления данных и создания генеративной модели. Примечательно, например, что хватание и тыканье помогает формированию понятий и обучению категориям.
Предиктивное мышление
Подход к восприятию как активному процессу конструирования размывает традиционно четкие границы между мышлением и восприятием. Радикальная версия этого постулата – границ нет вообще, а мышление и восприятие – это фундаментально одно и то же (иерархии Баезовых гипотез), а разница в феноменологии объясняется, например, свойствами гипотез участвующих в процессе, например, их близости к сенсорному сигналу.
В парадигме PP, мысли часто описывается как гипотезы более высокого уровня в общей генеративной модели мира (которые могут быть в какой-то степени изолированы от нижних уровней). Такой подход называется архитектурой «мышление сверху» (более современная версия – «мышление в центре», что, в принципе, вариация на ту же тему). По мере продвижения дальше от сенсорных поверхностей к верху иерархической модели (или центру, если она представлена сетью, а не деревом) – гипотезы становятся более мультисенсорными и далее абстрактными (проблем с этим подходом довольно много, ведется активная дискуссия).
Тут, конечно, возникает вопрос. Наша психологическая жизнь в основном протекает вне прямого сенсорного взаимодействия с окружающим нас миром. Т. е., сидишь ты в офисе за компьютером (окружающая реальность), а думаешь про ужин (сенсорной связи с которым вроде и нет). Что же тогда предоставляет обратную связь для предиктивной минимизации ошибки? Традиционный ответ звучит следующим образом. Как только мозг приобретает достаточно обширную, структурированную причинно-следственную модель мира, с которой он может этот мир воспринимать и в нем функционировать, мозг приобретает и возможность этот мир воображать (симулировать), целенаправленно исследовать собственное «ментальное пространство», игнорируя поступающие сенсорные данные. В этом случае ошибки предсказания не минимизируются (по крайней мере, на основе внешнего сигнала). Перевод модели в офлайн позволяет системе симулировать гипотетические причинно-следственные процессы и исследовать, например, отдаленные по времени или контр-фактивные сценарии. Этот аспект архитектуры теоретически способен осветить множество психологических явлений, таких как социальное познание и координация, память, планирование, сны и воображение. Специфические детали такой симуляции – тема активных дискуссий и один из приоритетов PP сообщества. Очевидно, что в какой-то форме симуляция необходима для того, чтобы иметь хоть какую-то надежду описать диапазон наших когнитивных способностей, не связанных с сенсорным онлайн-восприятием или действием, и реализовать амбициозные планы PP-теоретиков по захвату когнитивистики.
Проблемы
Как вы могли убедиться, PP имеет очень широкий охват. По мнению некоторых, такая «приспособляемость» на самом деле является не преимуществом, а проблемой (как минимум) в трех взаимосвязанных аспектах. Во-первых, есть опасения, что унификация когнитивных процессов достигается за счет смахивания под одну гребенку принципиально разных явлений. Язык предсказаний, минимизации ошибки и ожидаемой точности достаточно расплывчат, чтобы подмять под себя индивидуальные механизмы многих исследуемых явлений, в то время как, на самом деле, осмысленная дифференциация более полезна с точки зрения проникновения в суть когнитивных процессов. Во-вторых, как отмечают Маттео Коломбо и Штефан Хартманн в отношении байесовских схем, удачная унификация часто ассоциируется с объяснительным потенциалом теории. На практике, однако, PP предоставляет только базовые принципы работы когнитивной системы, но не раскрывает аспекты конкретных действующих механизмов. В этом смысле PP имеeт довольно ограниченную ценность, заключающуюся, собственно, как раз в ограничении пространства поиска потенциально применимых механизмов. Более того, даже в случае наличия описания конкретных биофизических механизмов, реализующих PP, делать предсказания по поводу, например, решений или контента восприятия конкретного человека не получится. Такие предсказания требуют прослеживания всей эволюции генеративной модели мира этого конкретного человека (включая все гипотезы, ожидаемые точности, выработанные принципы обновления модели и так далее). Наконец, высокоуровневый и «растяжимый» язык, возможность различных имплементаций принципов PP и ограничения имеющихся инструментов эмпирических исследований в нейронауках, по мнению некоторых исследователей, делают практически невозможным эмпирическое опровержение (или подтверждение) PP. Упрощая, не ясно, где и как именно искать PP в мозге.
Тем не менее исследователи не унывают. По словам Энди Кларка, PP – это способ мышления о разнообразных факторах и процессах участвующих в когнитивной деятельности, который уважает их разнообразие и одновременно показывает, как им удается работать вместе в единой когнитивной экономике через общие элементы (предсказания, ошибки предсказаний и ожидаемую точность). Эти элементы обеспечивают не только широкие ограничения на возможные механизмы, но и единицы функциональной структуры (хотя, возможно, в довольно минимальном виде). Функциональная структура, конечно, может быть реализована множеством способов на биофизическом уровне. Хорошая новость заключается в том, что многие основанные на принципах PP объяснения конкретных явлений уже достаточно специфичны в этом отношении. Эти конкретные реализации не только могут быть опровергнуты по отдельности, но и, взятые вместе, предъявляют дополнительные требования к архитектуре системы, поскольку должны взаимодействовать и демонстрировать согласованность друг с другом. Таким образом, хотя PP представляет собой скорее набор принципов, а не «опровергабельную» эмпирическую теорию, эти принципы позволяют осуществлять прогрессивные исследовательские программы (подробнее, например, в этой книге).
Список чтения и ссылки в тексте
Некоторые ссылки, которые я предоставляю, ведут на официальные страницы публикаций. В этих случаях доступ к статье может быть платный, либо через библиотеки. Можно поискать эти статьи в черновиках. Иногда черновики открыты авторами для публичного чтения. Есть еще «альтернативные реальности», но это вы сами.
Тема предиктивного кодирования сложнее и многообразнее, чем представляется в этой статье. Мое повествование не является беспристрастным обзором и уже содержит определенную позицию (даже, например, в выборе точки входа и способа представления ключевых элементов). Для тех, кого тема заинтересовала, рекомендую литературу (на английском), которая позволит окунуться в тему глубже и составить собственное мнение.
-
Clark, A. (2015). Surfing uncertainty: Prediction, action, and the embodied mind. Oxford University Press. [ссылка]
или
Hohwy, J. (2013). The predictive mind. Oxford University Press. [ссылка]
Это две главные книжки по PP, позиции авторов различаются в некоторых нюансах. Обе книги немного устарели, так как область развивается очень быстро, но для подробного первого знакомства – за глаза. Советую Кларка, но я предвзята.
Кому надо побыстрее, хорошая вводная статья, без формул и с относительно простым языком:
Wiese, W., & Metzinger, T. (2017). Vanilla PP for philosophers: A primer on predictive processing. [ссылка]
Kлассика жанра. Одна из самых цитируемых статей:
Clark, A. (2015). Radical predictive processing. The Southern Journal of Philosophy, 53, 3-27. [ссылка]
Первая статья с формулировкой через принцип минимизации свободной энергии (если вам такое нравится):
Friston, K. (2005). A theory of cortical responses. Philosophical transactions of the Royal Society B: Biological sciences, 360(1456), 815-836. [ссылка]
А вот работа, которая часто цитируется как самая первая статья по PP вообще:
Rao, R. P., & Ballard, D. H. (1999). Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects. Nature neuroscience, 2(1), 79-87. [ссылка]
Tут отличный список философской литературы по PP:
Hohwy, J. (2020). New directions in predictive processing. Mind & Language, 35(2), 209-223. [ссылка]
А тут, например, подробнее про PP подходы к галлюцинациям/делюзиям и проблемы с ними:
Sterzer, P., Adams, R. A., Fletcher, P., Frith, C., Lawrie, S. M., Muckli, L., ... & Corlett, P. R. (2018). The predictive coding account of psychosis. Biological psychiatry, 84(9), 634-643. [ссылка]
Тут обсуждаются некоторые проблемы с экспериментальным подтверждением:
Heilbron, M., & Chait, M. (2018). Great expectations: is there evidence for predictive coding in auditory cortex?. Neuroscience, 389, 54-73. [ссылка]
Наконец, если хочется повозиться с моделированием:
Bogacz, R. (2017). A tutorial on the free-energy framework for modelling perception and learning. Journal of mathematical psychology, 76, 198-211. [ссылка]
Millidge, B. (2019). Combining active inference and hierarchical predictive coding: A tutorial introduction and case study. [ссылка]
Smith, R., Friston, K., & Whyte, C. (2021). A step-by-step tutorial on active inference and its application to empirical data. [ссылка]
Комментарии (4)
iShrimp
11.12.2021 14:54Для меня самое удивительное - как мозг собирает в единую картину стимулы, растянутые во времени. В частности, как работает стереогнозис и чувство пространства.
С перцептроном всё просто, для него времени не существует: подали изображение - получили отклик.
Но как человек, ощупывая предмет со всех сторон (одними и теми же пальцами), определяет его форму? Как в мозге формируется механизм, который понимает, какие сенсорные данные в какой момент нужно запомнить и как их связать друг с другом?
И можно ли как-то обучить этому рекуррентную нейронную сеть? Это же в разы сложнее, чем свёрточные сети для изображений.
qw1
11.12.2021 20:04+1В цикле публикаций Редозубова я запомнил занимательную идею, что в мозге есть линии задержки, которые поставляют срезы информации на разные временные отметки, и все срезы одновременно подаются на вход сетки. Как-то так
вход→ ─[DELAY]─┬─[DELAY]─┬─[DELAY]─┬─[DELAY]─┬ ↓ ↓ ↓ ↓ ┌──┴─────────┴─────────┴─────────┴──┐ │ Нейросеть │ └─────────────────┬─────────────────┘ ↓ выход
Но это больше к анализу звуковой и визуальной информации, как мы воспринимаем слова и движение. Возможно, у «ощупывания слона» другие механизмы.
DASpit
11.12.2021 23:57+1Наконец-то до западных ученых дошло то, что в теории функциональных систем ещё 70 лет назад было сделано. Механизмы сопутствуещего разряда и сенсорных копий описаны полвека назад.
Сейчас просто переоткрывают уже известное более точными методами, но пока не доросли до глубины давних советских теорий. Топчутся на уровне Бернштейна.
С одной стороны приятно видеть ещё одно подтверждение знаниям, полученным ещё 25 лет назад, с другой стороны грустно, что прорыва так и нет, несмотря на охренительные возможности для инструментальных исследований.
phenik
Также см. здесь.