Системы машинного зрения могут распознавать лица на одном уровне с людьми и даже создавать реалистичные искусственные лица. Но исследователи обнаружили, что эти системы не могут распознать оптические иллюзии, а значит, и создать новые.




Зрение человека – удивительный аппарат. Хотя оно развивалось в определённой окружающей среде миллионы лет, оно способно на такие задачи, которые никогда не попадались ранним зрительным системам. Хорошим примером будет чтение, или определение искусственных объектов – машин, самолётов, дорожных знаков, и т.п.

Но у зрительной системы есть хорошо известный набор недостатков, воспринимаемых нами, как оптические иллюзии. Исследователи определили уже много вариантов, в которых эти иллюзии заставляют людей неправильно оценивать цвет, размер, взаимное расположение и движение.

Сами по себе иллюзии интересны тем, что дают представление о природе зрительной системы и восприятия. Поэтому будет очень полезно придумать способ находить новые иллюзии, которые помогут изучить ограничения этой системы.


Концентрические круги?

Здесь нам должно пригодиться глубинное обучение. В последние годы машины научились распознавать объекты и лица на изображениях, а потом создавать похожие изображения. Легко представить, что система машинного зрения должна суметь распознавать иллюзии и создавать свои собственные.

Тут на сцену выходят Роберт Уильямс и Роман Ямпольский из Университета Луисвилля в Кентукки. Эти ребята попробовали провернуть такое дело, но обнаружили, что всё не так просто. Существующие системы машинного обучения не способны выдавать собственные оптические иллюзии – по крайней мере, пока. Почему же?

Сначала общая информация. Недавние подвижки в глубинном обучении основаны на двух прорывах. Первый — доступность мощных нейросетей и парочка программных трюков, позволяющих им хорошо обучаться.

Второй – создание огромных по объёму размеченных баз данных, на базе которых машины способны обучаться. К примеру, чтобы научить машину распознавать лица, требуются десятки тысяч изображений, содержащих чётко размеченные лица. С такой информацией нейросеть может научиться распознавать характерные закономерности лиц – два глаза, нос, рот. Что ещё более впечатляет, пара сетей – т.н. генеративно-состязательная сеть (ГСС) – способны научить друг друга создавать реалистичные и совершенно искусственные изображения лиц.

Уильямс и Ямпольский задумали научить нейросеть определять оптические иллюзии. Вычислительных мощностей достаточно, а подходящих баз данных не хватает. Поэтому их первой задачей стало создание базы данных оптических иллюзий для тренировки.

Это оказалось сложно сделать. «Статических оптических иллюзий существует всего несколько тысяч, а количество уникальных видов иллюзий очень мало – возможно, пара десятков», — говорят они.

А это серьёзное препятствие для современных систем машинного обучения. «Создание модели, способной научиться на таком небольшом и ограниченном наборе данных, станет огромным скачком вперёд для генеративных моделей и понимания зрения человека», — говорят они.

Поэтому Уильямс и Ямпольский собрали базу данных из более чем 6000 изображений оптических иллюзий, и натренировали нейросеть распознавать их. Затем они создали ГСС, которая должна самостоятельно создавать оптические иллюзии.

Результаты их разочаровали. «После семи часов тренировок на Nvidia Tesla K80 ничего ценного создано не было», — говорят исследователи, открывшие базу данных для использования всеми желающими.

Результат, тем не менее, интересный. «Единственные из известных нам оптических иллюзий были созданы эволюцией (к примеру, рисунки глаз на крыльях бабочки) или художниками-людьми», — указывают они. И в обоих случаях люди играли решающую роль в обеспечении обратной связи – люди могут видеть иллюзию.

А системы машинного зрения не могут. «Маловероятно, что ГСС сможет научиться обманывать зрение, не понимая принципов, лежащих в основе иллюзий», — говорят Уильямс и Ямпольский.

Это может оказаться сложной задачей, поскольку между зрительными системами человека и машины есть критически важные различия. Многие исследователи создают нейросети, ещё сильнее напоминающие зрительную систему человека. Возможно, одной из интересных проверок для этих систем будет то, смогут ли они увидеть иллюзию.

А пока Уильямс и Ямпольский не проявляют оптимизма: «Судя по всему, набора данных с иллюзиями может быть недостаточно для создания новых иллюзий», — говорят они. Так что, пока оптические иллюзии остаются бастионом человеческого восприятия, неподвластным машинам.

Комментарии (23)


  1. aikixd
    28.10.2018 12:46
    +1

    Не понимаю на что они расчитывали. Мы, люди, никогда двухмерного изображения не видели. Все что мы "видим" это смесь (очень некачественной) картинки из глаза, пространтсвенного ощущения, воображения, опыта, настроения и т.д. Оптическая иллюзия появляется когда все эти компоненты не согласны с интерпретацией. У нейросетей просто нет инструментов что-бы их заметить.


    1. zim32
      28.10.2018 15:20

      На


    1. bypeso
      28.10.2018 20:32

      Некоторые видели, у некоторых один глаз, если уж подходить формально.
      Первая картинка бьет по частоте сигналов, карандашный тест, вторая бьет по опыту.
      Вот ИИ удивится нашим несовершенным нервам, мозгу и глазам


    1. Danikey
      28.10.2018 21:00

      Закрыть один глаз? О_-


    1. Caseor
      29.10.2018 01:58

      Мы, люди, никогда двухмерного изображения не видели.
      Наоборот — мы только и видели, что двумерную картинку. Но тут надо отделить котлет от мух — глаза видят одно, а сознание видит другое. Глаза видят двумерное изображение, точнее проекцию на поверхность почти полусферы — сетчатку. Мозг анализирует двумерную картинку, сравнивает картинку от разных глаз и уже по результату строит, достраивает модель окружающего мира, которую мы воспринимаем трёхмерной. Иллюзия это когда модель сильно отличается от реальности.


  1. Anthony_K
    28.10.2018 14:46

    Извините за придирку, у вас неграмотно построены предложения. Цитата:

    Хотя оно развивалось в определённой окружающей среде миллионы лет, оно способно на такие задачи, которые никогда не попадались ранним зрительным системам


    Нет глагола, относящегося к «способно на». Нельзя быть «способным на задачи», можно либо быть способным решать задачи, либо быть способным задавать задачи.
    Зрение способно на что (способно что делать)? Решать задачи, которые никогда не попадались ранее.

    ЗЫ. Еще раз: извините за придирку, но давайте, всё же, держать марку. Публикация на хабре должна быть тождественно равна знаку качества.


    1. saluev
      28.10.2018 16:31

      «Способно на решение таких задач». Глаголы не нужны.


      1. Anthony_K
        28.10.2018 19:18

        «Способно на решение таких задач»

        Не нахожу слово «решение» в авторском тексте.

        Глаголы не нужны.

        Нужен либо глагол, либо отглагольное существительное.


  1. phenik
    28.10.2018 14:49
    +1

    Более простые сети, как и человек, испытывают иллюзии, вот исследование на эту тему. Там правда использовались простые иллюзии на контраст, тем не менее. Думаю на перейдолиях ИНСы могут накалываться, как и человек) Случайно тоже могут сгенерировать. Вообще у разных типов сетей должны быть свои иллюзии, связанные со спецификой архитектуры, как у людей.


  1. TimsTims
    28.10.2018 16:13

    А разве каждая неверная интерпретация объекта (баг) не является иллюзией для нейросети))?


    1. aikixd
      28.10.2018 16:39
      -1

      Если мне показали Васю, а я сказал что это Петя, значит ли это что у Васи оптическая иллюзия а не рожа?


      1. TimsTims
        28.10.2018 17:06

        Всегда есть причина, по которой вы так сказали. Не верно сработала ваша система осознания не сработала. Почему? Либо вы бухой в стельку, либо системе были поданы ложные данные, которые вызвали неверную ячейку памяти. Неверные данные на входе и есть иллюзия.


        1. aikixd
          28.10.2018 17:13
          +1

          Я бы не называл любую неверную работу сети иллюзией. Я могу видеть Петю вместо Васи и быть абсолютно уверенным в том, что я прав. При иллюзии же, я так или иначе понимаю что данные с разных источников не сходятся и разные части мозга начинают бороться за правду.


          1. phenik
            28.10.2018 17:46

            Между ошибкой распознания (для человека в случае лиц — обознаться) и иллюзией тонкая грань, но она имеется. Если сеть натренирована на распознание только конкретных лиц людей, и вместо Васи распознала Петю, то это ошибка распознания, можно сказать, что сеть «обозналась». А если сети показали гамадрила, и она распознала в нем Васю, то это иллюзия сети, связанная как с архитектурой, так и обучением. Эта ситуация принципиально не отличается от иллюзий которым подвержен мозг человека. И вы правы, в случае иллюзии, в мозге происходит конкурентная борьба нейронных сетей. Изменяя контекст, меняя наклон головы, освещенность и тд, мы даем преимущество той, или иной сети, склонясь к определенному выбору. Это для простых иллюзий типа перейдолии, механизм динамических иллюзий, включая с разным набором сенсорных систем, сложнее.


  1. Space__Elf
    28.10.2018 16:27
    +1

    У нейросетей — свои иллюзии, которые не видит человек, но нейросети обманываются.


  1. pOmelchenko
    28.10.2018 16:51

    Злой вы. От картинки на главной аж голова заболела :(


  1. QuaziKing
    28.10.2018 17:12

    Интересно. Получается: чтобы получить много иллюзий для изучения принципа работы зрения нам нежно сначала получить много иллюзий чтобы построить нейросеть создающую много иллюзий. )


  1. perfect_genius
    28.10.2018 17:16

    Невзламываемые капчи?


    1. Fedorkov
      28.10.2018 19:09

      Теоретически взламываемые, но придётся эмулировать зрительный конвеер.


  1. Danikey
    28.10.2018 21:14
    -1

    И никто не сказал про то, что если нейронки начнут генерить иллюзии высокой сложности по запросу, то получим некоторое подобие контроля мозга. Представьте, что нейронка будет учиться на конкретном человеке, взламывая его восприятие самым оптимальным образом. А если взлом откроет дорогу более интересным вещам, вроде гарантированно работающего гипноза или «дайвинга», как в «Лабиринте отражения»? В итоге, получим нечто вроде «очков счастья», систем коррекции правонарушений, как в «Заводном апельсине», или систему изощрённых пыток, сводящих людей с ума почище химии. И не докажешь ведь ничего, за сумасшедшего сочтут. Напоминает продолжение программы MK Ultra, только уже в открытую.
    Мне одному кажется, что такие технологии гораздо опаснее ИИ и автопилотов?


  1. Silvatis
    29.10.2018 02:15
    +1

    Была создана система зрения без «легаси» костылей днк-кода в виде саккад, слепого пятна, конкурентных «отмирающих» колонок клеток мозга итп… и жалуемся, что у них нет багов так как нет костылей? Серьезно?


  1. Caseor
    29.10.2018 03:05

    Silvatis, у вас есть информация, что иллюзии начинаются с оптической системы? Мне кажется, что они начинаются с Фурье-преобразования, алгоритмами по распознаванию фурье-образа, а заканчиваются распознаванием глубины изображения.

    конкурентных «отмирающих» колонок клеток мозга
    Это тоже как по мне сомнительная причина появления иллюзий. Есть ссылочка?


    1. Silvatis
      29.10.2018 13:15

      Вы хотите все иллюзии свести к одной ошибке? Есть множество иллюзий связанных с различными костылями: К примеру окрашивание в настоящие цвета монохромной картинки инверсным изображением полностью на сетчатке происходит (баг связанный с саккадами и работой «логической схемы» переключения между чб\цветными сенсорами). Так же в вики можно найти картинку с пропадающим крестиком из за слепого пятна. Еще есть иллюзия — гифка с зеленой точкой бегущей по кругу, которой нет: эта бага вообще без использования аппарата вычисления, связана со скоростью отклика на изменения сенсоров.

      Что касается колонок — любой тест ведущего глаза является той самой иллюзией. Но тут уже пространственное восприятие, соответственно в 2D не проявляются.

      >Мне кажется, что они начинаются с Фурье-преобразования
      Я с вами частично не согласен. Наверняка какие — то из иллюзий связаны с процессом обработки, но чуть ли не все «движущиеся» иллюзии перестают двигаться, если подавлять саккады. У Искусственных нейросетей нет этой проблемы.