Хрустальный шар с извилинами: как мозг предсказывает речь / forpes.ru

Главная
Хрустальный шар с извилинами: как мозг предсказывает речь

Хрустальный шар с извилинами: как мозг предсказывает речь +22

10.08.2022 10:00

Dmytro_Kikot 15 3100 Источник

Мозг человека считается одним из самых сложных механизмов, на понимание работы, которого люди потратили не одно столетие, но так и не смогли получить полную картину. Именно в мозге протекают процессы, связанные с обработкой и хранением информации, с принятием решений, с контролем действий. Но до сих пор ученый свет не может дать единый ответ на вопрос — каков основной принцип или механизм работы мозга? Многие считают, что мозг работает по принципу сравнения сенсорной информации и построенных в нем предсказаний. К примеру, участвуя в беседе, человек воспринимает ряд сенсорной информации — голос собеседника, речь (т. е. сами слова), мимика, движения. А его мозг постоянно пытается предсказать, что собеседник скажет дальше. Ранее это была лишь теория, но благодаря ученым из Института психолингвистики Макса Планка (Нидерланды) теория была подтверждена на практике. Какие опыты провели ученые, что они показали, и смогли ли они открыть тайну работы мозга? Ответы на эти вопросы мы найдем в докладе ученых. Поехали.

Основа исследования

Для нас речь является обыденным делом, но на нейронном уровне это сложнейший процесс. И речь идет даже не о говорении, а о восприятии речи. Для понимания устной речи требуется преобразования неоднозначных потоков стимулов в иерархию все более абстрактных репрезентаций, начиная от звуков речи и заканчивая смыслом. Есть теория, что во время этого процесса мозг полагается на предсказание, чтобы направлять интерпретацию поступающей информации в нужное русло. Этот феномен был назван предиктивной обработкой, которая была успешно применена для создания искусственных систем распознавания речи. Помимо этого были исследования, показавшие наличие этого феномена и в других процессах, связанных, к примеру, с восприятием и двигательным контролем. Следовательно, можно предположить, что предиктивная обработка является фундаментальным процессом, который управляет всеми другими подпроцессами работы мозга.

Существует ряд доказательств реальности предиктивной обработки речи. Например, поведенческие и мозговые реакции очень чувствительны к нарушениям лингвистических закономерностей и к отклонениям от языковых ожиданий в более широком смысле. Хотя такие эффекты хорошо задокументированы, два важных вопроса о роли предсказания в обработке речи остаются нерешенными.

Первый вопрос касается степени распространенности прогнозирования. Одни труды показывают, что прогностическая обработка речи повсеместна и происходит рутинно и непрерывно у любого человека. Другие исследования говорят об обратном, указывая на преувеличение важности этого процесса ввиду применения неточных методов экспериментальной оценки.

Второй вопрос касается репрезентативной природы предсказаний: происходит ли лингвистическое предсказание прежде всего на уровне синтаксиса или, скорее, на лексическом, семантическом или фонологическом уровне?

В рассматриваемом нами сегодня труде ученые попытались получить ответы на оба эти вопроса. В частности, они проанализировали записи активности мозга из двух независимых экспериментов участников, слушающих аудиокниги, и использовали нейронную сеть (GPT-2) для количественной оценки лингвистических предсказаний.

Результаты исследования

Изображение №1

В ходе опытов испытуемые слушали аудиокнигу в исполнении человека (т. е. речь была естественной, а не сгенерированной компьютером). В первом варианте опыта в течение 1 часа велась электроэнцефалографическая запись (ЭЭГ) активности мозга 19 участников. Во втором эксперименте были собраны 9-часовые магнитоэнцефалографические (МЭГ) данные у трех испытуемых с использованием индивидуальных слепков головы, которые позволили с высокой точностью локализовать нейронную активность.

Первым делом ученые попытались найти доказательства лингвистического предсказания в целом. Они пришли к выводу, что, если мозг постоянно предсказывает будущую речь, нейронные реакции на слова должны быть чувствительны к нарушениям контекстуальных предсказаний, давая сигналы «ошибки предсказания», которые считаются отличительной чертой предсказательной обработки. Для этого был использован метод деконволюции (регрессионный ERP*), что позволило оценить влияние ошибки прогнозирования на вызванные ответы.

ERP* (event-related potential / потенциал, связанный с событием) — измеренный отклик мозга, который является прямым результатом определенного ощущения, когнитивного или моторного события.

Чтобы количественно оценить лингвистические предсказания, был проведен анализ книг, которые слушали испытуемые, с помощью GPT-2 модели. GPT-2 — это большая модель на основе преобразователя, которая предсказывает следующее слово по предыдущим словам.

Чтобы проверить, модулируются ли нейронные реакции на слова контекстуальными предсказаниями, было проведено сравнение трех регрессионных моделей.

Базовая модель формализовала гипотезу о том, что естественное, пассивное понимание языка не требует предсказания. Эта модель не включала регрессоры, связанные с контекстуальными прогнозами, но включала потенциально смешанные переменные (такие как частота, сложность семантической интеграции и акустика).

Модель ограниченного предсказания формализовала гипотезу о том, что во время понимания речи предсказания генерируются не постоянно, а только для подмножества слов в ограничивающих контекстах и эти прогнозы работают по принципу «все или ничего».

Данная модель была реализована с применением всех регрессоров из базовой модели, а также регрессор «неожиданностей». Этот регрессор был включен только для подмножества слов в наиболее ограничивающих контекстах. Была использована линейная метрика невероятности слова, поскольку предсказание по принципу «все или ничего» приводит (в среднем) к линейной зависимости между вероятностью слова и реакцией мозга.

Третья модель рассматривала непрерывное прогнозирование и включала все регрессоры из базовой модели, а также логарифмическую метрику невероятности слова (неожиданности) для каждого слова в аудиокниге. Это формализовало гипотезу о том, что мозг постоянно генерирует вероятностные прогнозы и что реакция на стимул пропорциональна его отрицательной логарифмической вероятности.

Изображение №2

Сравнение всех трех моделей в рамках их способности прогнозировать активность мозга показала, что именно модель непрерывного прогнозирования работает лучше остальных (2A). Эффект был очень последовательным как у ЭЭГ испытуемых, так и у МЭГ испытуемых.

Модель ограниченного прогнозирования отличалась от модели непрерывного прогнозирования в двух аспектах: она предполагала линейную зависимость между вероятностью и реакцией мозга; прогнозы ограничены ограничивающими контекстами.

Дополнительное сравнение модели непрерывного прогнозирования с другими контрольными моделями подтвердило, что в процессе восприятия речи эффекты предсказуемости слов являются логарифмическими и не ограничиваются словами в ограничивающем контексте. Эти эффекты обнаруживаются как для контекстных слов, так и для функциональных (вспомогательных).

Установив, что неожиданность слова модулирует нейронные реакции, ученые охарактеризовали этот эффект в пространстве и времени. Анализируя MEG данные, ученые попытались понять, какие нейронные источники лексической неожиданности были наиболее важными для объяснения нейронных данных, сравнив эффективность базовой модели и модели непрерывного прогнозирования.

Это показало, что общая неожиданность слова модулировала нейронные ответы во всей речевой сети (2C). Опыты с применением неожиданных слов показал, что они вызывают наиболее негативный нейронный ответ. Другими словами, мозг при прослушивании аудиокниги ожидает (прогнозирует) услышать определенное слово. Если же в результате произносится совершенно другое, то это вызывает всплеск нейронной активности максимума через 400 мс после начала слова (2B).

В совокупности эти результаты представляют собой явное свидетельство прогностической обработки, подтверждая, что ответы мозга на слова модулируются прогнозами. Эти модуляции не ограничиваются сдерживающими контекстами и происходят во всей речевой сети.

Далее необходимо было понять, на каком уровне происходит предсказание — синтаксис, семантика, фонетика или на всех уровнях сразу.

Изображение №3

Чтобы это выяснить, ученые разделили совокупные лингвистические прогнозы на уровне слов из искусственной нейронной сети на отдельные лингвистические измерения (схема выше).

Это позволило получить оценки трех предсказаний, специфичных для конкретных признаков: предсказание части речи (POS от part of speech) (определяемое как распределение вероятности по синтаксическим категориям), семантическое предсказание и фонематическое предсказание.

Ученые предположили, что если мозг генерирует прогнозы на заданном уровне (например, синтаксисе или грамматике), то нейронные реакции должны быть чувствительны к ошибкам прогнозирования, специфичным для этого уровня. Для проверки этой гипотезы была сформулирована новая регрессионная модель, включающая в себя все переменные из модели лексического прогнозирования в качестве отвлекающих регрессоров и три дополнительных регрессора интереса.

Поскольку эти регрессоры были в какой-то степени коррелированны, необходимо было понять, к какой области мозга относится каждый из них, а также на какие аспекты прогнозирования они влияют.

Изображение №4

Несмотря на индивидуальные отличия между участниками МЭГ исследования, наблюдалась вполне однородная картина нейронной активности в ответ на те или иные регрессоры. В зависимости от типа регрессора, отвечающего за определенный речевой уровень (семантика, фонетика и т. д.), наблюдался всплеск нейронной активности в определенной зоне мозга.

Это показывает, что мозг по-разному реагирует на разные типы лингвистических элементов. Другими словами, процесс речевого прогнозирования осуществляется на всех уровнях речевого восприятия.

Изображение №5

Установив, что три разных типа ошибок предсказания независимо модулируют нейронные реакции в разных областях мозга, ученые дополнительно исследовали природу этих эффектов. Это было сделано путем проверки коэффициентов, которые описывают, как колебания данного регрессора модулируют реакцию с течением времени.

Данный анализ показал, что разные классы ошибок предсказания взывают реакции мозга, которые диссоциированы как во времени, так и в пространстве. В частности, в то время как фонематические прогнозы и прогнозы POS модулируют относительно ранние нейронные ответы (от 100 до 400 мс) в ряде фокальных височных (и лобных) областей, которые являются ключевыми для синтаксической и фонетической/фонематической обработки, семантические прогнозы модулируют более поздние ответы (> 400 мс) в широко распределенном наборе областей распределенной семантической системы.

Эти результаты показывают, что лингвистическое предсказание не реализуется одной системой, а происходит во всей речевой и языковой сети, образуя иерархию лингвистических предсказаний на всех уровнях анализа.

Изображение №6

Установив, что мозг генерирует лингвистические прогнозы на нескольких уровнях анализа, ученые решили проверить, взаимодействуют ли между собой прогнозы на разных уровнях.

Одна гипотеза говорит о том, что они инкапсулированы: прогнозы в отдельных системах могут использовать разную информацию, например, разворачиваться в разных временных масштабах, что делает их независимыми.

Другая же говорит о том, что прогнозы на разных уровнях могут информировать и ограничивать друг друга, эффективно сходясь в одно многоуровневое прогнозирование, как предполагает иерархическая прогностическая обработка.

Одним из способов определить, какая из гипотез верна, является оценка различных схем получения фонематических прогнозов. Такие прогнозы могут быть основаны исключительно на информации, получаемой в короткий промежуток времени. В таком варианте прогнозируемая вероятность следующей фонемы получается из когорты слов, совместимых с фонемами на данный момент (6А). Таким образом, эта схема влечет за собой одноуровневую модель: прогнозы основаны только на одном уровне информации — коротких последовательностях фонем. Другими словами, мозг пытается спрогнозировать последующие слова, основываясь исключительно на предыдущих фонемах.

Альтернативный вариант заключается в использовании для прогнозирования не только последовательных фонем в слове, но и более длинного предшествующего лингвистического контекста. В этом случае вероятность следующей фонемы все равно будет получена из когорты слов, совместимых с представленными до сих пор фонемами, но теперь каждое слово-кандидат взвешивается по его контекстуальной вероятности (6А). Такая модель уже может считаться иерархической, так как основана и на коротких последовательностях фонем, и на длинных последовательностях слов.

Сравнение прогностической эффективности обеих моделей показало, что прогностическая модель намного эффективнее, чем непрогностическая базовая модель (6B и 6C). Дальнейшее сравнение показало, что именно иерархическая модель прогнозирования работает значительно лучше, как в ЭЭГ, так и в МЭГ. Это говорит о том, что нейронные прогнозы фонем (основанные на коротких последовательностях звуков речи внутри слова) основаны на лексических прогнозах, эффективно включающих длинные последовательности предшествующих слов в качестве контекстов.

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог

В рассмотренном нами сегодня труде ученые смогли на практике подтвердить гипотезу о том, что мозг человека в рамках восприятия речи работает по принципу прогностической обработки.

В ходе опытов испытуемые слушали аудиокниги, а ученые собирали данные ЭЭГ и МЭГ, которые в дальнейшем анализировались. Слова из аудиокниг также были проанализированы с применением глубоких нейронных сетей. Это позволило установить, насколько каждое из слов непредсказуемо.

Когда мы слышим устную речь, наш мозг делает подробное статистическое ожидание для каждого слова и звука и является крайне чувствительным к степени непредсказуемости, т. е. реакция мозга куда сильнее, если слово оказывается неожиданным в контексте речи.

Ученые приводят в пример то, как мы часто заканчиваем фразы или предложения собеседника, когда он говорит медленно или забывает слово, которое хотел применить. Важная особенность заключается в том, что этот процесс протекает в мозге постоянно.

Другими словами, наш мозг можно сравнить с функцией автозаполнения в поисковиках, мессенджерах и т. д. Но, в отличие от этих программ, наш мозг предсказывает не только слова, но и другие элементы речи на разных уровнях (звуки, контекст, грамматика, семантика и т. д.).

Подобное открытие, а точнее подтверждение уже существующей теории на практике, лишний раз показывает, насколько сложной системой является мозг человека. В будущем ученые намерены провести аналогичные опыты, но уже с визуальными и слуховыми стимулами, дабы понять, есть ли в таком случае прогностическая обработка информации.

Немного рекламы

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Комментарии (15)

inakrin
10.08.2022 11:23
#24615818
+2
Интересно, что для меня всегда было самоочевидно, что мозг предсказывает следующее слово в речи и реагирует на несовпадение реальности с предсказанием. Под очевидно, я имею в виду, что это непосредственно происходит в моём субъективном опыте, когда я слушаю или говорю с кем либо, я своего рода "слышу" слова, которые они ещё не сказали, но я ожидаю услышать. Я не помню точно и сейчас кажетс, что так происходило всегда, но возможно заметно это стало после начала практик медитации примерно 10 лет назад.
1. knstqq
  10.08.2022 13:44
  #24616466
  +4
  некоторые вещи несмотря на их очевидность не являются истинной. Например, теория Аристотеля о движении «насильственное движение возможно только в том случае, если к телу приложена сила со стороны другого тела».
  Эта статья предоставляет доказательства теории и это хорошо.
1. phenik
  10.08.2022 14:54
  #24616762
  +2
  Под очевидно, я имею в виду, что это непосредственно происходит в моём субъективном опыте, когда я слушаю или говорю с кем либо, я своего рода «слышу» слова, которые они ещё не сказали, но я ожидаю услышать.
  А вы не замечали, что еще иногда вы слышите те слова, кот. хотите услышать, а не те кот. произносит собеседник?) Понаблюдайте за собой, это частая причина непонимания. Это лучше наблюдается, когда собеседник говорит тихо, или присутствует посторонний шум, напр, гомон на вечеринке или офисе.
  
  Исследователи провели неплохую работу, но несколько однобоко толкуют предиктивное предсказание. Происходит не просто предсказание наиболее вероятного след. слова, как это происходит в языковых моделях типа GPT, а предсказание в контексте готовности воспринять это слово, а точнее категории, т.е. с учетом семантики, смысла, ассоциаций, и тд. Это факт установлен весьма давно, еще в 60-х годах прошлого века, и называется перцептивной готовностью категорий (см. одну из оригинальных статей на эту тему). Она кстати действует не только на восприятие слов, но и визуальную информацию, вот здесь хорошо проиллюстрировали это. Это желание услышать, то на что заранее настроен, эксплуатируется маркетологами в рекламе, и называется прайминг эффектом. Предсказание происходит, но одновременно происходит конкуренция разных контекстов, и побеждает наиболее мотивированный, наиболее готовый.
  1. inakrin
    10.08.2022 16:20
    #24617058
    >А вы не замечали, что еще иногда вы слышите те слова, кот. хотите услышать, а не те кот. произносит собеседник?)
    
    Именно! Не просто замечал, а страраюсь этот эффект минимизировать. Прекрасно наблюдается этот эффект ещё при изучении иностранного языка, когда я ожидаю услышать знакомое слово, а не то, которое я не знаю.
  1. VDG
    11.08.2022 07:05
    #24618512
    +1
    Происходит не просто предсказание наиболее вероятного след. слова, как это происходит в языковых моделях типа GPT, а предсказание в контексте готовности воспринять это слово, а точнее категории, т.е. с учетом семантики, смысла, ассоциаций, и тд.
    Нет чёткой непреодолимой границы между предсказанием модели и предсказанием человека, есть недостаточная сложность модели. «Семантика, смыслы, ассоциации» — это всё разные «слои вероятностей», уточнений предсказания. Чем сложнее модель, тем больше тонкостей она будет улавливать в том, каким вероятнее всего будет следующее слово. То есть, подключится и семантика и ассоциации и т.д.
    
    phenik
    11.08.2022 11:01
    #24619112
    +1
    Нет чёткой непреодолимой границы между предсказанием модели и предсказанием человека, есть недостаточная сложность модели. «Семантика, смыслы, ассоциации» — это всё разные «слои вероятностей», уточнений предсказания.
    Так и есть. Но дело несколько в другом, того чего у существующих нейронных моделей пока точно нет — готовности этих категорий к действию. Сеть обучили и в ней сформировались статистические статические представления о категориях, ее связи с другими категориями, информация о которых кот. была в обучающей выборке. На этом все. Подобное есть и у человека, как результат врожденных представлений и всего предыдущего опыта обучения. Можно совершенствовать архитектуры моделей и приближаться к возможностям мозга. Но в дополнении к этому имеется еще текущая активация, связанная с восприятием, действием, общением. Если человек смотрел на яблоки, говорили или думал о них, и тп, или все вместе, достаточно интенсивно, то активируется категория связанная с яблоками. Через некоторое время, скажем через сутки, в ситуации некоторой неопределенности связанной с восприятием или общением, интерпретация в первую очередь будет идти через эту категорию, и другие активные. Человеку говорят: я был далеко.., а в голове по созвучию может спонтанно возникнуть образ яблока) Человек может удивиться, при чем тут яблоко, не связанное с контекстом текущего общения, и не догадываясь о связи с тем, что было сутки назад, уже забыв про это. Может даже услышит слово яблоко, если активация была сильной, и посчитает, что ослышался, но это не совсем так. Зачем нужен такой механизм готовности категорий? Грубый компьютерный аналог — кэширование часто используемой информации, напр, в процессоре. Готовность категорий в большинстве случаев работает правильно, если вы постоянно имеете дело с яблоками, экономит время и затраты на доступ к памяти, особенно в случае перцептивных стимулов, и мы не замечаем этого. Это одно из проявлений байесовского кодирования в мозге, о чем тема статьи в отношении предсказания речи.
    
    В нейронных сетях этот механизм может выглядеть так. Модель не только предсказывает след. слово, но и тема диалога влияет на веса категорий в сети, тем самым поддерживая текущий контекст, и не давая фразе «большое яблоко» интерпретироваться, как Нью-Йорк, если речь в диалоге идет о яблонях в саду, и веса остаются повышенными в течении некоторого времени в будущем. Когда происходят диалоги на др. темы веса подсети связанной с категорией яблок также уменьшаются. В пределе, если какая-то изначально возникшая при обучении сети категория больше не упоминается, то ее веса со временем фактически обнуляются, и она «забывается». Поэтому это должны быть динамические сети, с непрерывной активностью, а не статические, как существующие. Возможно механизмы поддержания диалога в существующих сетях являются некоторыми начальными аналогами этой фичи.
1. RigelNM
  10.08.2022 22:20
  #24617926
  Могу конечно ошибаться в рефлексии. Но мне кажется у меня совсем не так. Я скорее наоборот не успеваю за речью и обдумываю уже произнесенные слова и порой не успеваю за быстрой и длинной речью. Куда уж та до предсказаний. Вот и жена мне говорит, что в диалоге я "тормоз".
  
  Но в очевидных диалогах конечно бывает, когда думаешь "боже, да хватит уже, все и так поняли что ты начал говорить".
  1. inakrin
    11.08.2022 08:03
    #24618576
    Несомненно, у разных людей одна и таже функция может быть реализована по-разному. У Фейнмана в книге был описан эксперимент на эту тему, кстати.

Nickbe
10.08.2022 12:51
#24616232
+4
Немного не по теме, но в контексте: "... лишний раз показывает, насколько сложной системой является мозг человека."

Около 20 лет назад, я получил травму черепа, после которой полностью лишился восприятия звука в правом ухе. Медицинские обследования показали, что сам слуховой аппарат правого уха не повреждён. Сломался именно механизм передачи звуковой информации из уха в мозг.

На протяжении года, мне было очень сложно определять позиционирование в пространстве источника звука, но постепенно эта функциональность стала возвращаться. Примерно через 2 года после травмы, я стал достаточно точно определять направление на источник звука, хотя продолжал получать звуковую информацию по прежнему только с левой стороны головы. По моим предположениям, мозг каким-то образом анализирует задержки звуковых волн и рисует правильную пространственную картинку. Правое ухо, до сих пор не работает и если закрыть рукой левое ухо - то звук не слышен полностью.

Вот такие наблюдения. Просто решил поделиться.
1. evtomax
  10.08.2022 13:18
  #24616360
  +3
  А если закрыть рукой правое ухо, то позиционирование источника звука определяется?
  1. knstqq
    10.08.2022 13:47
    #24616486
    вообще форма раковины может помогать направление звука. Из-за стерео эффекта (2 уха) можно определить направление лево-право, но не верх-низ или зад-перед. Верз-низ и зад-перед определяется именно из-за формы раковины и вторичного эхо.
    если эксперимент evtomax@ с закрытием уха провалится, то это вероятная причина.
  1. Nickbe
    10.08.2022 13:54
    #24616526
    Да, определяется. Одно время я думал, что может быть мозг определяет наличие вибраций на коже головы, но тогда при закрытии левого уха можно было бы определять наличие какого-либо звукового сигнала, но нет. Полная тишина.
    
    phenik
    10.08.2022 14:23
    #24616626
    При этом не двигаете немного головой? Это может происходить непроизвольно.
1. Sinner680
  10.08.2022 14:29
  #24616660
  +1
  Строение ушной раковины со всеми её извилинами участвует в определении направления звука. Звуковые волны напротив и позади человека проходят разный маршрут, получаются разные задержки между началом сигнала, его окончанием и уровнем. Мозг постоянно обрабатывает эту метаинформацию и узнаёт направление
  1. phenik
    10.08.2022 17:48
    #24617326
    +1
    Вот здесь что-то пишут об этом. Но если это так, то почему человеку понадобилось почти два года чтобы научиться определять локализацию? Возможно все же положение головы и эхо от окружающих предметов началось более интенсивно использоваться, поэтому ушло столько времени на обучение. Слепые обучаются использовать эхо от окружающих предметов для ориентации, хотя у них два уха и они могут постукивать палочкой, это облегчает задачу.