К удивлению исследователей, алгоритмы компьютерного зрения с глубоким обучением часто не справляются с классификацией изображений потому, что они в основном ориентируются на текстуры, а не на формы.



Если вы посмотрите на фотографию кошки, с большой вероятностью вы сможете узнать это животное, вне зависимости от того, будет оно рыжим или полосатым – или даже если фотография будет чёрно-белой, запятнанной, потрёпанной или потускневшей. Вероятно, вы сможете заметить кошку, когда она свернулась клубочком за подушкой или прыгает на стол, представляя собой лишь размытую форму. Вы естественным образом научились распознавать кошек почти в любой ситуации. А вот системы машинного зрения, работающие на основе глубоких нейросетей, хотя иногда и способны обставлять людей в задачах распознавания кошек при фиксированных условиях, но могут оказаться сбитыми с толку при помощи изображений, которые хоть немного отличаются от им известных, или же содержат шум или слишком сильную зернистость.

И теперь немецкие исследователи обнаружили неожиданную причину этого: если люди обращают внимание на формы изображённых объектов, компьютерное зрение с глубинным обучением цепляется за текстуры объектов.

Это открытие, представленное в мае на международной конференции представлений обучения, подчёркивает резкий контраст между «мышлением» людей и машин, и иллюстрирует, насколько мы можем ошибаться в представлении о том, как работает ИИ. А также это может подсказать нам, почему наше зрение стало таким в результате эволюции.

Кошки со слоновьей кожей и самолёты из часов


Алгоритмы глубокого обучения работают, прогоняя через нейросеть тысячи изображений, на которых либо есть кошка, либо нет. Система ищет в этих данных закономерности, которые потом использует, чтобы поставить ранее не встречавшемуся ей изображению наилучшую метку. Архитектура сети немного напоминает строение зрительной системы человека, поскольку в ней есть связанные слои, позволяющие ей извлекать всё более абстрактные признаки из изображения. Однако процесс построения системой ассоциаций, ведущих к правильному ответу, представляет собой чёрный ящик, который люди могут лишь пытаться интерпретировать постфактум. «Мы пытались понять, что ведёт к успеху этих алгоритмов компьютерного зрения с глубоким обучением, и почему они настолько уязвимы», — сказал Томас Диттерих, специалист по информатике из Орегонского университета, не связанный с данным исследованием.

Некоторые исследователи предпочитают изучать, что происходит, когда они пытаются обмануть сеть, немного изменяя изображение. Они обнаружили, что даже небольшие изменения могут заставить систему совершенно неправильно пометить изображение – а большие изменения могут не привести к изменению метки. Тем временем, другие эксперты отслеживают изменения в системе, чтобы проанализировать, как отдельные нейроны реагируют на изображение, и составляют "атлас активаций" на основе признаков, которым обучилась система.

Но группа учёных из лабораторий вычислительного нейробиолога Матиаса Бетге и психофизиолога Феликса Вичмана из Тюбингенского университета в Германии избрала качественный подход. В прошлом году команда сообщила, что при обучении изображений, изменённых шумом определённого вида, сеть стала распознавать изображения лучше людей, пытавшихся разобрать такие же зашумлённые картинки. Однако те же самые изображения, видоизменённые чуть-чуть по-другому, совершенно сбили сеть с толку, хотя для людей новое искажение выглядело практически так же, как и старое.


Роберт Гейрос, аспирант по вычислительной нейробиологии из Тюбингенского университета

Чтобы объяснить этот результат, исследователи задумались, какое качество изображения меняется больше всего даже при добавлении небольшого шума. Очевидным выбором стали текстуры. «Форма объекта остаётся более-менее невредимой, если долгое время добавлять много шума», — сказал Роберт Гейрос, аспирант в лабораториях Бетге и Вичмана, ведущий автор исследования. Но «локальная структура изображения искажается очень быстро при добавлении небольшого количества шума». Поэтому они придумали хитроумный способ проверки того, как зрительные системы машин и людей обрабатывают изображения.

Гейрос, Бетге и их коллеги создали изображения с двумя противоречивыми особенностями, взяв форму от одного объекта, а текстуру от другого: к примеру, силуэт кошки, раскрашенный серой текстурой слоновьей кожи, или медведь, составленный из алюминиевых банок, или силуэт самолёта, заполненный накладывающимися друг на друга изображениями циферблатов. Люди размечали сотни таких изображений на основе их форм – кошка, медведь, самолёт – почти каждый раз, как и предполагалось. Однако четыре разных алгоритма классификации склонялись в другую сторону, выдавая метки, отражавшие текстуры объектов: слона, банок, часов.

«Это меняет наше представление о том, как глубокие нейросети с прямым распространением – без дополнительных настроек, после обычного процесса обучения – распознают образы», — сказал Николаус Кригескорте, вычислительный нейробиолог из Колумбийского университета, не участвовавший в исследовании.

На первый взгляд предпочтение у ИИ текстур формам может показаться странным, но оно имеет смысл. «Текстура – это что-то вроде формы в большом разрешении», — сказал Кригескорте. И к такому масштабу системе легче цепляться: количество пикселей с информацией о текстурах значительно превышает количество пикселей, составляющих границу объекта, а самые первые шаги сети связаны с распознаванием локальных признаков, типа линий и граней. «Именно это и есть текстура», — сказал Джон Цоцос, специалист по вычислительному зрению из Йоркского университета в Торонто, не связанный с этим исследованием. «К примеру, группировка отрезков, выстраивающихся одинаковым образом».

Гейрос с коллегами показали, что этих локальных признаков достаточно, чтобы сеть провела классификацию. Это доказательство Бетге и ещё один из авторов исследования, постдок Виланд Брендель, довели до законченного вида в работе, которую также представляли на майской конференции. В той работе они построили систему с глубоким обучением, работающую примерно так же, как работали алгоритмы классификации до распространения глубокого обучения – по принципу «мешка признаков». Алгоритм разбивает картинку на мелкие фрагменты, как и текущие модели (такие, которые Гейрос использовал в своём эксперименте), но потом, вместо того, чтобы постепенно интегрировать эту информацию для извлечения признаков более высокого уровня абстракции, алгоритм сразу делает предположение о содержимом каждого кусочка («в этом кусочке есть свидетельства наличия велосипеда, в этом – наличия птицы»). Он просто складывал все решения, чтобы определить объект («если больше кусочков содержат признаки велосипеда, то это велосипед»), не обращая внимания на пространственные взаимоотношения кусочков. И всё же он смог распознавать объекты с неожиданно высокой точностью.

«Эта работа бросает вызов предположению о том, что глубокое обучение делает что-то совершенно отличное» от предыдущих моделей, сказал Брендель. «Очевидно, был совершён большой скачок. Я просто говорю о том, что он оказался не таким большим, как надеялись некоторые».

Согласно Амиру Розенфельду, постдоку из Йоркского университета и университета Торонто, не участвовавшему в исследовании, «между тем, что нейросети должны, по нашему мнению, делать, и тем, что они делают, существует большая разница», включая то, насколько хорошо удаётся им воспроизводить поведение человека.

Брендель высказался в том же ключе. Легко предположить, что нейросети будут решать задачи так же, как люди, сказал он. «Однако мы постоянно забываем о существовании других методов».

Сдвиг в сторону более человеческого взгляда на вещи


Современные методы глубокого обучения могут интегрировать локальные признаки, типа текстур, в более глобальные закономерности, вроде форм. «Что в этих работах неожиданно и очень убедительно показано – хотя архитектура позволяет классифицировать стандартные изображения, этого не происходит автоматически, если вы просто обучаете сеть этому», — сказал Кригескорте.

Гейрос хотел посмотреть, что получится, если команда заставит модели игнорировать текстуры. Команда взяла изображения, традиционно используемые для обучения алгоритмов классификации, и раскрасила их в разных стилях, лишив их полезной информации о текстурах. Когда они переобучили каждую модель на новых изображениях, системы начали полагаться на более крупные, глобальные закономерности, и показали большую склонность в сторону распознавания форм, что было больше похоже на людей.


Виланд Брендель, вычислительный нейробиолог из Тюбингенского университета в Германии

А ещё после этого алгоритмы стали лучше классифицировать шумные изображения, даже когда их не обучали иметь дело с подобными искажениями. «Сеть, распознающая формы, совершенно бесплатно стала более надёжной, — сказал Гейрос. – Это говорит о том, что правильная предвзятость для выполнения определённых задач, в нашем случае – склонность к использованию форм, помогает обобщать знания на новые условия».

Это также говорит о том, что у людей такая склонность могла образоваться естественным путём, поскольку использование форм – более надёжный способ распознавать то, что мы видим, в новых или зашумлённых условиях. Люди живут в трёхмерном мире, где объекты видно со многих углов при множестве разных условий, и где другие наши чувства, например, осязание, могут по необходимости дополнять распознавание объектов. Поэтому для нашего зрения имеет смысл ставить форму в приоритет текстурам. Кроме того, некоторые психологи продемонстрировали связь между языком, обучением и склонностью к использованию форм: когда детей учили обращать больше внимания на формы при изучении определённых категорий слов, позже они смогли выработать гораздо более объёмные словарные запасы существительных, чем другие.

Эта работа служит напоминанием того, что «данные сильнее влияют на предубеждение и отклонения моделей, чем нам казалось», сказал Вичман. С этой проблемой исследователи столкнулись не в первый раз: уже было показано, что программы распознавания лиц, автоматический поиск резюме и другие нейросети придают слишком много значения неожиданным признакам из-за предубеждений, глубоко укоренившихся в данных, на основе которых они обучаются. Устранение нежелательных предубеждений из процесса принятия решений оказалось трудной задачей, но Вичман сказал, что новая работа демонстрирует, что это в принципе возможно, и его это обнадёживает.

Тем не менее, даже модели Гейроса, фокусирующиеся на формах, можно обмануть, добавив в изображения слишком много шума, или сменив определённые пиксели, что говорит о том, что им ещё предстоит долгий путь до качества, сравнимого с человеческим зрением. В том же ключе в новой работе Розенфельда, Цоцоса и Маркуса Солбаха, аспиранта из лаборатории Цоцоса, демонстрируется, что алгоритмы машинного обучения не способны улавливать схожесть разных изображений так, как это делают люди. И всё же подобные работы «помогают точно указать, в каких именно аспектах эти модели пока не воспроизводят важные аспекты деятельности человеческого мозга», сказал Кригескорте. А Вичман сказал, что «в некоторых случаях, возможно, важнее изучить набор данных».

Санья Фидлер, специалист по информатике из университета Торонто, не принимавшая участия в исследовании, соглашается. «Это наша задача – разрабатывать хитроумные данные», — сказала она. Она с коллегами изучает, как вспомогательные задачи могут помочь нейросетям улучшить качество выполнения основных задач. Вдохновившись открытиями Гейроса, они недавно обучили алгоритм классификации изображений не только распознавать сами объекты, но и определять, какие пиксели относятся к их контурам. И сеть автоматически стала лучше распознавать объекты. «Если вам дают только одну задачу, то в итоге вырабатывается выборочное внимание и слепоту по отношению ко множеству других вещей, — сказал Фидлер. – Если я дам вам несколько задач, вы узнаете о разных вещах, и этого уже может не произойти. Так же и с этими алгоритмами». Решение различных задач помогает им «выработать склонность к различной информации», что похоже на то, что случилось в эксперименте Гейроса с формами и текстурами.

Всё эти исследования «очень интересный шаг к углублению нашего понимания происходящего при глубинном обучении, и, возможно, он поможет нам преодолеть те ограничения, которые нам встречаются, — сказал Дитрих. – Вот поэтому я и обожаю эту серию работ».

Комментарии (10)


  1. roryorangepants
    09.08.2019 10:56
    +2

    На хабре уже был обзор этой же статьи, написанный с меньшим количеством воды и с техническими деталями.


  1. paluke
    09.08.2019 11:10
    +2

    А про диван леопардовой расцветки писали еще 4 года назад


  1. Aquahawk
    09.08.2019 11:31

    На самом деле будет очень круто, когда поверх слоя сетей которые распознают материалы и текстуры навернуть другие алгоритмы которые пользуясь информацией о том что это за текстуры станут распознавать образы. Мы же во многом так думаем, видя кусок шерсти мы не знаем, медведь это, собака или шуба, но видя в целом мы сопоставляем и форму и текстуру и делаем вывод.


    1. zim32
      09.08.2019 13:50
      +2

      Имхо все прийдёт к тому что выходы из разных нейросетей будут входами в одну большую сеть по типу как у человека когнитивная зона, и эта сеть на основании всех контекстов будет выдавать результат


    1. snamef
      12.08.2019 02:22

      вообще то это показывает что сейчас нейронка делает избыточную работу, потому что формы определить проще. Вот тестовая идея — два отдельных входа для текстур (обычное фото) и для форм (состоит из модуля разницы по соседним пикселям). Совмещаем трубы где то на предпоследнем слое.


      1. masai
        12.08.2019 20:46

        потому что формы определить проще

        Что значит «проще»? Если бы было проще, разве тогда сеть не использовала их?


        Совмещаем трубы где то на предпоследнем слое.

        Что мешает сети просто проигнорировать «трубу» с модулем разности и обучиться как раньше? К тому же, если бы разность была бы так нужна сети, она сама бы ей научилась в первом же свёрточном слое, так как такая разность — это и есть свёртка.


  1. Exchan-ge
    09.08.2019 12:10

    Работу человеческого мозга по распознаванию объектов можно изучить, например, показывая человеку современные (или наоборот, старинные) фотографии того города, в котором он когда-то жил (или живет)

    В отличии от кошек и проч. — здания и улицы могут оставаться неизменными на протяжении долгого времени или сохранять какие-то узнаваемые черты при наличии большого количества изменений.
    Эта относительная неизменность дает некоторую базу для изучения механизма распознавания.

    (довольно часто приходилось наблюдать, как человек не мог распознать на снимке хорошо знакомые ему улицы и здания после современной «точечной» застройки. Однако практически всегда, хотя и не очень быстро, мозг человека определял совокупность нескольких мелких объектов на снимке, после чего происходило мгновенное узнавание. Иногда это вызывало досаду: «как я мог не узнать сразу, ведь это очевидно!»)


  1. ideological
    09.08.2019 21:27
    -2

    Ужас. Какие-то открытия у людей. Не представляют похоже как работает машинное обучение.


    На входе цвета пикселей и работает по цветам пикселей, что тут удивительного.
    В распознавании лиц подают что-то ближе к форме, а не к цветам, вот и работает уже по другому. Изи.


    Сейчас такое время: то грантососы, то изнасилования журналистов.


  1. snamef
    12.08.2019 00:47

    Однако те же самые изображения, видоизменённые чуть-чуть по-другому, совершенно сбили сеть с толку, хотя для людей новое искажение выглядело практически так же, как и старое.

    это просто оверфит. Надо добавлять к картинке случайный микро-шум чтобы выбивать этот оверит. Ещё можно обучать на 3Д- рендеринге с простой текстурой но чёткими формами. И вангую внезапно окажется что надо в разы меньше слоёв.


  1. Frankenstine
    13.08.2019 09:18

    ИМХО состоит в том, что сеть учится на статичных, фиксированных изображениях, а человек — на «видеопотоке», который даёт как чёткие изображения, так и смазанности, игру теней, движение на похожем фоне и т.п., причём человек (ребёнок) понимает, что это слегка размытое очертание это та же кошка что секунду назад сидела приготовившись к прыжку. И ребёнок таким образом научится распознавать кошек в движении. А нейросеть — нет, она работает (на сегодня) со «стоп-кадрами», и не способна отслеживать движение объектов во время, когда они принимают нестандартные формы или нечётко видны.