imageФото: news.mit.edu

Исследователи из Массачусетского технологического института создали компьютерную модель, которая отражает способность зрительной системы человека быстро генерировать подробное описание сцены из изображения и дает некоторое представление о том, как работает мозг.

«В этой работе мы пытались объяснить, как восприятие может быть намного богаче, чем просто прикрепить семантические метки к частям изображения, и исследовать вопрос о том, как мы видим весь физический мир», — говорит Джош Тененбаум, профессор вычислительной когнитивной науки и член Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Центра мозга, разума и машин (CBMM).

Новая модель демонстрирует, что, когда мозг получает картинку, он быстро выполняет серию вычислений, которые обращают вспять шаги, которые компьютерная графическая программа использовала бы для генерации двумерного представления лица или другого объекта. Этот тип модели известен как эффективная обратная графика (EIG).

Понимание того, что световой поток, который попадает на сетчатку, превращается в картинку, помогло разработать компьютерные модели, которые могут воспроизводить аспекты этой системы. Однако, как отмечают исследователи, даже эти сложные системы искусственного интеллекта не могут приблизиться к тому, что может сделать человеческая зрительная система.

Теорию о том, что мозг рисует богатую картину с объемами и текстурами, обращая вспять процесс формирования образа, выдвинул более века назад врач, физик и философ Герман фон Гельмгольц. Он предположил, что зрительная система включает в себя генератор изображений. Исследователи утверждают, что запуск этого генератора в обратном направлении позволил бы мозгу заработать вспять. Однако остается вопрос скорости обработки. Алгоритмы были неспособны выполнить подобный процесс за 100-200 миллисекунд. Нейробиологи считают, что восприятие может происходить так быстро, потому что оно реализуется в основном через прямую связь через несколько иерархически организованных слоев нейронной обработки.

Тогда команда МТИ решила создать особый тип модели глубокой нейронной сети. В отличие от стандартных глубоких нейронных сетей, используемых в компьютерном зрении, которые обучаются на основе помеченных данных, указывающих класс объекта на изображении, сеть исследователей обучается на основе модели, которая отражает внутренние представления мозга о том, как выглядят сцены с лицами.

Таким образом, их модель учится обращать вспять шаги, выполняемые компьютерной программой для генерации лиц. Процесс начинается с трехмерного представления отдельного лица, а затем преобразования его в двухмерное изображение, как его видно с определенной точки зрения. Эти изображения могут быть размещены на произвольном фоне. Исследователи предполагают, что зрительная система мозга может делать что-то подобное, когда человек мечтает или создает мысленный образ чьего-либо лица.

Ученые обучили свою глубокую нейронную сеть выполнять эти шаги в обратном порядке, то есть процесс начинается с 2D-изображения, а затем добавляются такие функции, как текстура, кривизна и освещение, чтобы создать то, что исследователи называют «2.5D» представлением. Эти 2.5D изображения определяют форму и цвет лица с определенной точки. Затем они преобразуются в трехмерные представления, которые уже не зависят от точки обзора.

Исследователи обнаружили, что их модель работает в соответствии с данными, полученными при изучении определенных областей в мозге макак. В исследовании, опубликованном в 2010 году, Фрайвальд и Дорис Цао из Калифорнийского технологического института зафиксировали активность нейронов в этих областях и проанализировали, как макаки реагировали на 25 разных лиц, видимых с семи разных точек зрения. Это исследование выявило три этапа высокоуровневой обработки лица, которые, как теперь полагает команда МТИ, соответствуют трем этапам их обратной графической модели: этап 2.5D; сцена, которая преобразует 2,5 в 3D; и трехмерная, не зависящая от точки зрения стадия представления лица.

Исследователи также сравнили производительность модели с характеристиками людей в задаче, которая включает в себя распознавание лиц с разных точек. Задачу усложняли, меняя лицо, удаляя его текстуру или искажая форму. Производительность новой модели была намного больше, чем у людей и у компьютерных моделей, используемых в современном программном обеспечении для распознавания лиц.

«Их подход объединяет классическую идею о том, что зрение инвертирует модель того, как изображение было сгенерировано, с современными глубокими сетями прямой связи. Очень интересно, что эта модель лучше объясняет нейронные репрезентации и поведенческие реакции», — говорит Николаус Кригескорте, профессор психологии и неврологии в Колумбийском университете.

Теперь исследователи планируют продолжить тестирование подхода к моделированию на дополнительных изображениях, включая объекты, которые не являются лицами, чтобы выяснить, может ли обратная графика также объяснить, как мозг воспринимает другие виды сцен. Кроме того, они полагают, что адаптация системы к компьютерному зрению может привести к разработке более эффективных систем искусственного интеллекта.
См. также: