Давайте поставим эксперимент. Откройте приложение камеры на смартфоне и начните записывать видео. Поместите экран прямо перед глазами и попробуйте использовать эти живые кадры для перемещения по комнате. Сложно и неприятно, правда? Даже с современной технологией всё слишком мыльное при свободном движении. Цвета сливаются, а формы искажаются.
В то же время ученые говорят, что это очень похоже на то, как наши глаза в реальности воспринимают окружающий мир. Они — такая же линза. Только хуже, с биологическими недостатками. Примерно такими же беспорядочными визуальными данными наши глаза постоянно бомбардируют наш мозг. Тогда, логично, возникает вопрос: как же мы видим всё так четко и без искажений?
Этот вопрос пытались решить много лет. Есть несколько теорий, объясняющих, как наши глаза и мозг работают вместе, пытаясь сглаживать то, что мы видим вокруг себя. Это, в первую очередь, теория «слепоты к изменениям» (= когда стимул меняется, но мы этого не замечаем, отсекая всё как лишнее, чтобы сохранить четкость). И «слепота по невнимательности» (= наша неспособность замечать видимый объект, потому что наше внимание сосредоточено на чем-то другом). Эти факторы в чём-то могут объяснить нашу супер-классную стабилизацию и отсутствие размытия движущихся объектов. И они уже оказались нам очень полезны: эти теории вдохновили на создание реальных технологий, таких как алгоритмы для сглаживания видео на смартфонах.
Но в исследовании, выпущенном несколько недель назад, ученые решили протестировать и доказать третью теорию, известную как «последовательная зависимость». И она означает, что мы смотрим в среднем на 15 секунд в прошлое.
В новой статье, опубликованной в январе в журнале Science Advances, исследователи из университета Абердина и Калифорнийского университета в Беркли описывают «ранее неизвестную зрительную иллюзию». Она помогает нам понять, как наш мозг сглаживает те изменения, которые происходят с течением времени.
Авторы говорят:
Вместо того чтобы анализировать каждый отдельный визуальный снимок, наш мозг, по сути, формирует среднее арифметическое из того, что мы видели за последние 20 секунд. При этом больший вес дается более старым кадрам.
Захваченные глазом объекты сближаются, чтобы они казались более похожими друг на друга. Так наш мозг обманом заставляет нас воспринимать окружающую среду более стабильной и неподвижной. Жизнь «в прошлом» может объяснить, почему мы не замечаем небольших изменений, которые происходят с течением времени.
Вот, скажем, иллюзия с объектами в комнате:
Все объекты постепенно меняются, комната из начала и из конца ролика — очень сильно непохожи. Но поскольку происходит это постепенно, градиентом, мы (в среднем) ощущаем комнату неизменной. Средне-арифметически на протяжении этих 25 секунд она одна и та же.
Например, можно подумать о том, что происходит с вашими глазными яблоками, когда они сфокусированы на каком-то объекте. Когда вы двигаетесь, даже просто во время дыхания, глаза должны перемещаться, чтобы объект оставался в фокусе. Поэтому объекты, которые «не в фокусе», быстро становятся размытыми. Мы к этому привыкли. Но как главный объект остается четким, мы же перемещаемся? Куда уходят естественные искажения?
Исследователи пишут в своей статье:
Почему объекты кажутся нам такими стабильными, несмотря на постоянные изменения их проекции на сетчатке?
Изображения на сетчатке постоянно колеблются из-за множества источников внутреннего и внешнего шума — движения, окклюзий, разрывов, изменений освещения и перспективы. Но нам кажется, что объекты не дрожат, не колеблются и не меняют свою идентичность от момента к моменту. Этот вопрос — почему окружающий мир кажется неизменным с течением времени — существует столетия.
Мы предполагаем, что это происходит из-за активного механизма в нашем мозгу, за счет которого репрезентация объекта постоянно сливается во времени. Серия разных изображений сливается в одно, которое в среднем лучше всего представляет реальность. И следствием этого является иллюзия стабильности. При которой внешний вид объектов смещен в сторону прошлого.
Наши результаты обеспечивают прямую демонстрацию связи между последовательной зависимостью и воспринимаемой визуальной стабильностью в повседневной жизни.
В общем, «последовательная зависимость» приводит к тому, что объекты в любой момент усредняются и воспринимаются похожими на те, которые мы видели в недавнем прошлом. Это создает эффект сглаживания за счет уменьшения общего количества «кадров», и уменьшения общей информации, которую нам нужно усваивать каждую секунду.
Это с новой стороны объясняет визуальные иллюзии, которые не всегда удавалось понять с помощью других теорий.
Вот, например, знаменитое видео с гориллой, которую не замечают:
С точки зрения новой теории, причина — в средне-арифметическом кадре гориллы как бы и нет. Есть игроки и мяч, а горилла — явление слишком мимолетное и несущественное, чтобы его замечать. Мы на ней не сфокусированы, и она присутствует в кадре меньше восьми секунд. Если бы она была там 20 секунд или больше, то, согласно «последовательной зависимости», наш мозг всегда бы успешно её распознал, потому что в среднестатистическом кадре она присутствовала.
Суть эксперимента
Чтобы проверить эту теорию, исследователи провели эксперимент. В нём разные группы людей смотрели на постепенно меняющееся изображение со стареющим или молодеющим лицом. По мнению ученых, если наш мозг правда работает по принципу последовательной зависимости, он будет фиксировать изменение возраста с отставанием. Неправильно его оценивать, зацикливаясь на недавнем прошлом. И можно будет понять, какой именно «временной лаг» в нас всех встроен.
Сначала двум группам по 45 человек показывали статическое изображение молодого лица (13 лет) и более взрослого лица той же девушки (25,5 лет). Потом их просили сказать, сколько примерно на каждом фото ей лет. И в целом они угадали!
Потом третьей группе из 47 человек показали фильм с лицом, которое менялось, быстро становясь взрослее. И попросили сразу же оценить возраст итогового лица. Оно казалось им существенно моложе — девушке давали не 25,5 лет, а 20,2 года.
Наконец, для проверки четвертой группе дали лицо, изменяющееся от старого к молодому. И предложили им оценить возраст молодого лица. Оно показалось им существенно взрослее реальной цифры — 18,4 года вместо 13 лет. Хотя, казалось бы, на контрасте девушка должна, наоборот, казаться им еще моложе.
Вот, кстати, это видео, которое показывали на эксперименте:
В общем, если группе давали просто фото человека, они в среднем корректно угадывали его возраст. Но если фото быстро менялось, они вычисляли среднее арифметическое, к тому же с задержкой по времени. И давали в среднем возраст того человека, которого видели 12-15 секунд назад.
Чтобы дополнительно проверить зависимость, исследователи увеличили интервалы времени между изменениями изображения. Иллюзия восприятия, неверная субъективная оценка возраста, сохранялась вплоть до задержки 15 секунд. Непрерывно меняющийся физический объект ошибочно воспринимался как неизменный за счет нашего предыдущего визуального опыта.
Ученые говорят, что эту иллюзию стабильности нельзя объяснить пассивной «слепотой к изменениям». И это не «слепота по невнимательности»: люди действительно смотрели на этот объект, ничего другого в кадре не происходило. И всё-таки их ощущения были искажены. Они говорят, что это именно «последовательная зависимость» — восприятие следующих кадров зависит от того, что мы видели ранее. И внешне объекты кажутся нам такими, какими мы видели их несколько секунд назад.
В общем, по мнению ученых из университета Абердина и Калифорнийского университета в Беркли, — мы все постоянно смотрим на 12-15 секунд в прошлое, и за счет этого получаем качественную картинку и не сходим с ума. Кажется довольно парадоксальным — я, например, этого вообще не ощущаю…
Комментарии (37)
EviGL
23.02.2022 09:59+15Сложно и неприятно, правда? Даже с современной технологией всё слишком мыльное при свободном движении. Цвета сливаются, а формы искажаются.
Во-первых не особенно, во-вторых это вызвано двумя факторами: задержкой видоискателя на типичном смартфоне и искажением перспективы, когда смотришь на спроецированную картинку.
Взять режим passthrough в VR шлеме, который на линзы быстро и правильно проецирует картинку с внешних камер устройства, и в нём вполне комфортно ходить по квартире. Несмотря на ужасное качество чёрно-белых камер в потребительских VR-шлемах.
Все объекты постепенно меняются, комната из начала и из конца ролика — очень сильно непохожи. Но поскольку происходит это постепенно, градиентом, мы (в среднем) ощущаем комнату неизменной.
Эта иллюзия объясняется физиологией зрения, у человека область чёткого зрения составляет 6 градусов, поэтому мы сначала быстро пробегаем взглядом по картинке, чтобы "просканировать" объекты, а затем мозг использует память + очень-очень размытую картинку с периферийного зрения, чтобы воспринимать ту часть сцены, которая находится за пределами чёткого зрения. Поэтому, можно либо сфокусироваться на одном объекте и заметить одно какое-то изменение, либо быстро бегать взглядом в поисках необычностей (как говорит нам "задание" перед видео) и не увидеть вообще ничего, т.к. на видео изменения намеренно очень медленные.
Ученые говорят, что эту иллюзию стабильности нельзя объяснить пассивной «слепотой к изменениям». И это не «слепота по невнимательности»: люди действительно смотрели на этот объект, ничего другого в кадре не происходило. И всё-таки их ощущения были искажены.
Скорее всего, этот эффект специфичен именно для восприятия лиц, у человека отдельный механизм отвечает за восприятие лиц (из-за чего на неправильные лица физически неприятно смотреть). И именно для восприятия такой мелкой детали как возраст. Сложно представить, например, что бубновый валет меняется на даму пик и человек ещё 15 секунд этого не замечает :)
Итого, я бы сказал, что были выбраны разные эксперименты, показывающие разные эффекты, неверно обобщены и был сделан неверный вывод.
nin-jin
23.02.2022 11:11На диплопию неприятно смотреть не потому, что "лица неправильные", а потому что понимаешь, что объект один и тот же, но не можешь понять где он находится и постоянно сбиваешься то на один слой изображения, то на другой.
RigelNM
23.02.2022 12:28+1Может там пример и не верный, но то что за лица отвечает другой отдел - это правда. Есть ведь повреждения мозга при которых:
1 вариант - у человека не наблюдается отклонений, он видит лица и может их описать, но совершенно не узнает кто это
2 вариант - он видит родственника или близкого друга, узнает его, но у него ощущение что это кто-то другой, очень похожий/двойник/"подменыш".
kuzzzov
23.02.2022 10:07+2Мне кажется, что все значительно сложнее. Наш мозг не просто видит изображение, он строит модель окружающего мира. Воспринимаемый нами мир кардинально отличается от двумерного изображения, спроецированного на сетчатку глаза. Он трехмерен, наполнен предметами и объектами, в нем практически отсутствует вертикальная перспектива. А если мы повернем голову, то интерьер и все предметы останутся на своих местах, что разительно отличается от поворота в компьютерных играх.
При построении модели окружающего мира лишь часть информации поступает от наших глаз, а другая часть из нашей памяти. К тому же, частота нервных импульсов нейронов не превышает 1000 герц, человеческий мозг силен лишь высоким распараллеливанием процессов. Поэтому логично, что некоторые сложные подзадачи восприятия окружающего мира, не являющиеся критически важными, могут требовать нескольких секунд на обработку.
iShrimp
23.02.2022 20:55Мозг постоянно составляет мозаику из маленьких кусочков, угловой размер которых соответствует макуле (центральной зоне сетчатки). Т.е. мозг наблюдает мир как через мутное стекло с маленьким прозрачным окошком. Этот эффект "замочной скважины" можно почувствовать в полной мере при разглядывании стереограмм. Т.к. участок с полноценным бинокулярным зрением имеет ещё меньший размер, на то, чтобы полностью рассмотреть 3D-форму, может уйти полминуты или больше.
IvanPetrof
24.02.2022 11:12Слышал такую теорию у Курпатова (возможно теория не его).
Для меня, по крайней мере, это объясняет многие эффекты мозга. Например предметная слепота, когда ты ищешь какой-то предмет, который вот прям сейчас лежал на столе, но теперь ты его в упор не видишь. Но через некоторое время искомый предмет обнаруживается на самом видном месте. То есть внутренняя трёхмерная модель мира по какой-то причине «не рендерит» искомый предмет, хотя его изображение в глазе присутствует. Возможно на этом эффекте (внутреннего трёхмерного рендера) работают галюцинации (и, возможно, сновидения). При некоторых психических расстройствах человек вполне «реально» может «видеть» то, чего нет.
WD40
23.02.2022 10:08+4В общем, по мнению ученых из университета Абердина и Калифорнийского университета в Беркли, — мы все постоянно смотрим на 12-15 секунд в прошлое, и за счет этого получаем качественную картинку.
Что-то я не пойму, а как тогда самолеты летают и не врезаются в землю. С автомобилями еще понятно что все такие тормоза и поэтому аварий не случается. Но как с самолетом быть? Если пилот смотрит на 15 сек в прошлое.
Bedal
23.02.2022 10:15с самолётами как раз проще. Скорость выше — но и расстояния больше. А уж опасностей сбоку меньше на несколько порядков.
В изложенном — нужно понимать — речь идёт не об отставании во всех точках картинки, во всех объектах, а в целом. В поле бинокулярного зрения всё гораздо быстрее — но оно весьма узкое.ClearAirTurbulence
23.02.2022 11:18Логика с "расстояниями больше" не работает при посадке.
Bedal
24.02.2022 07:44Во-первых, по времени от ошибки до краха всё равно получается гораздо мягче, чем в автомобильном движении.
Во-вторых, речь ни в посте, ни в комментах не идёт о том, что вообще вся картинка сформирована с лагом в 15 секунд. Как раз в авиации известен «туннельный эффект», когда пилот активно обрабатывает непосредственную задачу и напрочь не замечает остального. Вот это «напрочь» как раз и уходит в те 15 секунд.
tommyangelo27
23.02.2022 11:31+3А ещё есть пилоты Формулы 1, которые 15 секунд назад были в километре от нынешнего местоположения :-)
VPryadchenko
23.02.2022 10:32+14Рискуя показаться неполиткорректным, все же замечу, что девушка на видео азиатской внешности, а об этническом составе исследуемых групп людей ничего не сказано, по крайней мере, здесь. Из обывательского опыта замечено, что не азиатам распознавать возраст азиатов, как правило, довольно сложно, и это может влиять на результат.
tsurugi-no_ken
23.02.2022 12:11-1Анимешники способны различать японок и китаянок. ^__^
Oll123
23.02.2022 14:27+3Пора вводить термин "нетфликовцы", потому что тут же добавляются еще и корейцы.
Лично я кстати вообще не понимаю как можно перепутать корейца\японца\китайца, они сильно отличаются строением лиц (на мой взгляд). Хотя слепой тест не проходил, да, может быть заблуждаюсь :)
Вы попробуйте Бурята от Тывинца отличить .. вот где мой детектор ломается наглухо.
VPryadchenko
23.02.2022 15:12+1Скорее тогда уж дорамщики, но речь то не про национальность, а про возраст.
Barabas79
23.02.2022 10:55+4Видео с комнатой да, хороший пример.
А вот с гориллой не совсем понял, ее же прекрасно видно на видео.OldFisher
23.02.2022 11:47+5Когда о ней заранее предупреждают - то видно. А в классическом эксперименте участникам предлагают проверить свою внимательность, считая броски мяча. Результаты поразительные. Многие пропустившие потом утверждают, что им показали два разных видео.
oalisevich
23.02.2022 14:20Думаю дело в этом. Думаю что человек не Видит глазами в реалтайме, он видит Мозгом. Т.е. картинка Создается в мозге и мы ее видим отуда, глаза занимаются только Актуализацией, по мере необходимости. Это уменьшает нагрузку на распознавание но тем самым и создает оптические иллюзии разного рода. Мозг не справится с прямым , постоянно включенным, распознованием всего поля зрения за разумное время. Это тоже можно наблюдатьнапример утром или после потери сознания- классический вопрос "где я?", задаваемый после долгой потери сознания, комы и прочего. Процесс Зрения -дополнительный, для распознавания, как и остальные источники информации.
YMA
23.02.2022 17:22Отсюда и эффект, который отмечают выжившие при падении с большой высоты или авариях на транспорте - "лечу/еду, и раз - выключили свет, очнулся уже тут".
Момент удара просто не успевает отразиться в сознании, оно выключается раньше, чем мозг обрабатывает поступившие данные. Учитывая скорость реакции человека на раздражители - минимум 0,1 сек., и скорость при падении с 20-го этажа в районе 30 м/с - последнее, что успеет теоретически отразить сознание, будет вид с высоты около 3 метров.
oalisevich
23.02.2022 17:48Угу, отсюда скорость рефлексов всегда выше обДумывания. Но... при этом появляется Предсказание - зная в целом поведение наблюдаемой системы можно предугадывать ее будущее состояние. Мораль - умные боксеры потенциально сильнее.
DrZlodberg
23.02.2022 18:50Или просто при ударе получает сотрясение, которое отлично очищает кратковременную память. Если перестараться — то эффект затягивается. Один знакомый после того, как приложился головой (благо ещё в шлеме был) пару дней (по словам друзей) жил в режиме золотой рыбки. Сами наблюдал это где-то в течении часа, когда каждые пару минут спрашивал, а что произошло?
gsaw
23.02.2022 18:04Больше всего это заметно с VR шлемом. Когда он на тебе, все плавно и не дергается. Когда же смотришь трансляцию на экране телевизора того, что видит человек в шлеме, то порой тошнит от того, как все дергается и трясется. Можно посмотреть любую трансляцию на ютубе. Разительная разница восприятия.
DrZlodberg
23.02.2022 18:57+1Всё просто. Когда на тебе — движение согласованно со зрением и мозг прекрасно знает заранее, куда картинка уедет. Иначе даже просто читать текст на экране когда листаешь не ты — и то сбивает очень сильно. Если есть возможность листать в обе стороны. Если не угадываешь направление, то мозг какое-то время пытаеться заново склеить картину. Кстати шлем для этого не нужен. Любая экшн-камера на голове с отключенным или отсутсвующим(кто имел дело — знает :)) стабилизатором. Порой самому свою запись смотреть потом сложно.
vadimk91
23.02.2022 19:20При записи видео с рук даже со стабилизатором (гимбалом) невозможно избавиться от колебания картинки в такт с шагами. Особенно заметно, если идёшь к примеру вдоль ограды. Чтобы получить стабилизацию видео, эквивалентную той, что в мозге, снимать надо с дрона, проверено многочисленными собственными опытами.
DrZlodberg
23.02.2022 21:36Речь не о том. Когда движение плавное — восприятие так не рвётся. Даже обычный програмный стабилизатор делает картинку вполне преемлемой. Говорю как активный пользователь гопры начиная с первой. Стаб очень сильно помогает.
А подвес — так тут вопрос — о каком подвесе речь. Профессиональные бывают и 6-осевые (три поворота и три перемещения). Правда это огромная дура с космическим ценником. Можно увидеть в деле на бэкстейжах съёмок всяких фильмов.
Ну и в просто варианте есть способы. Можно просто на трос повесить, если камерой крутить не надо. Дёшево и сердито. На асфальте народ ещё со скейта или велика снимает. Тоже весьма ровно получается. Можно так же немного попрактиковаться и постараться шатать камеру с учётом шага. Большой вес камеры, кстати, сильно помогает. Правда и долго снимать с нормальной тяжестью сложно.
tarekd
23.02.2022 21:40+4Наверное игроки в CS или Dota 2 нажимают кнопки зная будущее на 11 секунд вперед.
ksbes
24.02.2022 10:48+1Всё это не более чем дешёвые фокусы:
1) Лицо. Почему азиатское? А потому что даже сами азиаты не всегда могут сказать кто 40-летня мама, а кто её 18-летняя дочь (если мама в офисах работала, а не в полях под палящим солнцем). Особенность такая у монголоидной расы.
2) Меняющаяся комната. Первое: в центре поставлен нифига не меняющийся яркий контрастный объект, который приковывает внимание, а все изменения происходят в области периферии. Второе — все изменения происходят крайне неестественным способом «плавного проявления» — специально избегают собственно движения, которое стригерило бы наш «охотничий» условный рефлекс.
3) Ну и с гориллой — всё уже давно разобрано. Классический «неуловимый джо»: очевидно что это не горилла, а человек в костюме. К людям в таких костюмах современный человек привычен — ничего сверхординарного в таком нет. Ну и люди играют/смотрят игру и на всяких придурков вокруг им просто наплевать. Поэтому увидели и через 5 секунд забыли за ненадобностью это помнить. Так мы забываем тысячи вещей каждый день ибо память не казённая.
Ну а с учётом, того, что на основе этих фокусов строится научная теория… Грусноватенько.
sterr
24.02.2022 23:32Когда я играл в пинг понг, я часто замечал, что я знаю где находится шарик, когда я его отбиваю и я знаю как его отбить и в 70% случаев я знаю куда он полетит. Это было 20 лет назад. Сейчас мой компьютер сбоит и я ошибаюсь более чем в 50% случаев. Причем я знаю точно где шарик, но не попадаю по нему. Возможно это неточная мышечная реакция, либо все-таки неправильное определение. Но шарик летит миллисекунды и вижу я его не четким зрением, да и невозможно его увидеть, слишком быстро летит.
И я никогда не мог запомнить лица. Если специально не вглядываться, мог забыть через 5 минут. Случались даже неприятности из-за этого. Но мог узнать человека по походке на очень большом расстоянии, когда его не различить. И я прекрасно запоминаю мелодии. У каждого свой компьютер и заточен по разному.
nin-jin
И никто не предположил, что мозг сначала классифицирует объект, а потом игнорирует мелкие изменения.
Bedal
собственно, это и изложено. Классифицировать объект в каждый конкретный момент времени (кадр) — крайне высокая нагрузка. Потому для классификации объекта во времени как раз и требуется усреднение кадров.
Не точно таким же, но в чём-то похожим, образом поступают и в придуманных алгоритмах. Скажем, «круговой обзор» на современных ситроенах реализуют именно так, одной камерой, усредняя общую картинку во времени. При движении изображение сбоку формируется из изображения сзади/спереди за прошедшие секунды.
И да, там тоже «гориллу можно и не заметить».
nin-jin
Он каждый раз и классифицируется. Либо похож на тот, что был в близком месте, либо не похож и разбираемся на что похож. Делается это за доли секунды и не требует никакого сглаживания на 15 секунда, которое само по себе вышло бы куда дороже.
Bedal
Кстати, то же самое и в упомянутом круговом обзоре ситроенов: изображение непосредственно сзади — непосредственно же с камеры и показывается, а, чем глубже сбоку — тем оно фактически старее.
Но вернёмся к биообъектам.
Одно из самых распространённых объяснений ДТП на перекрёстках: «он так летел, что я его просто не увидел».
Объекты вне поля бинокулярного зрения, двигающиеся быстрее 40км/час, уже не распознаются — этот известный эффект можно считать другой формулировкой описываемого в посте лага. У собак, кстати, та же фигня, у кошек и вовсе граница в районе 20км/час, а вот у грачей даже выше 100км/час (у птиц вообще зрение получше нашего).
nin-jin
Про бинакулярное зрение можете рассказать пиратам - они любят хорошие шутки.
А ещё можете сами закрыть один глаз и походить по улице, чтобы убедиться, что всё прекрасно распознаётся.
Bedal
Поле бинокулярного зрения — зона перекрытия областей предельной остроты зрения (жёлтое пятно). Так что даже один глаз в своей части этой зоны выдаёт картинку значительно лучшую, чем в остальных.
Но Вам, похоже, нужно не только устройство и работу глаза подизучать?