Визуальный розыгрыш раскрыл ахиллесову пяту систем компьютерного зрения: в отличие от людей, они неспособны повторно изучить что-то непонятное
— Слона-то я и не приметил.
И. А. Крылов
Одно очко в пользу человеческого мозга. В новом исследовании специалисты по информатике обнаружили, что ИИ-системы не проходят зрительный тест, с которым бы легко справился и ребёнок.
«Это хитроумное и важное исследование, напоминающее нам, что „глубинное обучение“ не такая уж глубокая вещь», — сказал Гэри Маркус, нейробиолог из Нью-Йоркского университета, не связанный с этой работой.
Результаты относятся к области компьютерного зрения, в которой ИИ-системы пытаются распознать объекты и разделить их на категории. Они могут попытаться найти пешеходов на улице, или отличить птицу от велосипеда (эта задача чрезвычайно сложна). Ставки высоки: в то время, как компьютеры берут на себя такие критические задачи, как автоматическая слежка и автономное вождение автомобилей, нам необходимо, чтобы их система обработки визуальной информации хотя бы не отставала от людских глаз, которые они пытаются заменить.
Сделать это будет непросто. В новой работе собраны сложности человеческого зрения, и трудности, связанные с созданием имитирующих его систем. В исследовании учёные представили системе компьютерного зрения изображение жилой комнаты. Она хорошо справилась с определением в ней кресла, человека, книг на полке. Затем исследователи ввели в сцену аномальный объект – изображение слона. Само его присутствие заставило систему сломаться: внезапно она назвала кресло кушеткой, а слона – стулом, и вообще перестала видеть остальные предметы, которые видела до этого.
«Происходит много всяких странных вещей, демонстрирующих чрезвычайную хрупкость существующих систем распознавания объектов», — сказал Амир Розенфельд, исследователь из Йоркского университета в Торонто, один из авторов работы, написанной совместно с его коллегой из того же университета Джоном Цоцосом и Ричардом Земелем из Университета Торонто.
Исследователи пока ещё пытаются понять, как именно системы компьютерного зрения так легко сбиваются с толку, но у них уже есть обоснованные предположения. Всё дело в способности человека, которой не хватает ИИ: понять, что видимая сцена сбивает с толку, и вернуться к ней заново, пересмотрев её ещё раз.
Слон в комнате
Посредством глаз в наш мозг попадает ошеломляющее количество информации. И мозг обрабатывает её очень быстро. «Мы открываем глаза, и всё происходит мгновенно и одновременно», — сказал Цоцос.
ИИ, наоборот, создаёт визуальную репрезентацию с трудом, будто бы читая её описание, сделанное шрифтом Брайля. Он проходит своими алгоритмическими кончиками пальцев по пикселям, составляя из них всё более сложные представления. Выполняющий это действие тип ИИ-системы называется нейросетью. Она передаёт изображение сквозь набор «слоёв». На каждом слое детали изображения – цвета, яркость, отдельные пиксели – уступают место всё более абстрактным описаниям того, что там изображено. К концу процесса нейросеть выдаёт наилучшее возможное предсказание того, на что она смотрит.
«Всё это работает посредством движения от одного слоя к другому, получения выходных данных с предыдущего слоя, их обработки и передачи к следующему, как конвейер», — сказал Цоцос.
Нейросети хорошо справляются с определёнными задачами. Они способны опережать человека в узконаправленных задачах вроде сортировки объектов по категориям – к примеру, рассортировать собак по породам. Эти их успехи породили ожидание того, что системы компьютерного зрения скоро станут настолько хороши, что смогут вести машину по заполненным городским улицам.
Но также они спровоцировали исследователей на тщательный поиск их уязвимостей. В последние годы проводилось довольно много таких попыток, «состязательных атак», в которых учёные изобретали особые сцены, способные обмануть нейросети. В одном эксперименте специалисты по информатике обманули нейросеть, заставив её принять черепаху за ружьё. В другом исследователи устроили нейросети засаду, располагая изображение тостера психоделической раскраски рядом с обычными объектами типа банана.
В новом исследовании используется сходный подход. Три исследователя скормили нейросети изображение жилой комнаты: мужчина сидит на краешке потрёпанного кресла, играя в видеоигру. Перемолов эту сцену, нейросеть правильно определила несколько объектов с высокой степенью уверенности: человек, кушетка, телевизор, кресло, книги.
Нейросеть с высокой вероятностью корректно определяет несколько объектов в захламлённой комнате
С добавлением изображения слона появляются проблемы. Кресло становится кушеткой, чашка исчезает, слон становится креслом.
Затем исследователи добавили в сцену нечто неуместное – фотографию слона, снятого сбоку. И тут нейросеть начала путаться в пикселях. В некоторых попытках слон заставлял нейросеть перепутать кресло с кушеткой. В других система пропускала объекты, типа ряда книг, которые она правильно определила в предыдущих подходах. Эти ошибки происходили даже тогда, когда слон находился далеко от неправильно определённых объектов.
Такую неразбериху можно очень неприятным образом экстраполировать и на работу робомобилей. Компьютер не может управлять автомобилем, если он способен не заметить пешехода только потому, что за секунду до этого он проехал мимо индюка, стоявшего на обочине.
С самим же слоном на картинке тоже вышла неразбериха: иногда система правильно определяла его, иногда называла его овцой, а иногда вообще не замечала.
«Если бы в комнате реально был слон, то вы, как человек, его бы, скорее всего, заметили», — сказал Розенфельд. – Система же даже не определила его наличие".
Всё связано со всем
Когда люди замечают нечто неожиданное, они смотрят на это повторно. Повторный подход – распространённое явление в области когнитивистики, объясняющее, почему нейросети отказывают, встретившись со странностями.
На сегодня лучшие нейросети работают с распознаванием объектов методом "прямого распространения". Информация проходит через них только в одном направлении. Они начинают с входных данных в виде отдельных пикселей, потом переходят к кривым, формам, сценам, а нейросеть в это время пытается делать обоснованные предположения по поводу того, что она видит на каждом из шагов. В результате, беспорядочные наблюдения в начале процесса загрязняют конечный результат, когда нейросеть собирает всё, что, как ей кажется, она знает, чтобы выдвинуть предположение по поводу того, на что она смотрит.
Амир Розенфельд
«В итоге в нейросети всё оказывается связанным со всем, поэтому потенциально каждая особенность каждого участка изображения может влиять на результаты работы», — сказал Цоцос.
Человек действует лучше. Представьте, что вам очень быстро показали изображение круга и квадрата, причём одна фигура синего цвета, а вторая – красного. Затем вас попросили назвать цвет квадрата. Если вы бросили на изображение только один взгляд, вы можете перепутать цвета фигур. Однако вы способны понять, что вы запутались, и попросить посмотреть на картинку ещё раз. И, что важно, при втором взгляде вы уже знаете, что своё внимание необходимо концентрировать на цвете квадрата.
«Зрительная система человека говорит: „У меня пока нет правильного ответа, поэтому мне надо вернуться и увидеть, где я могла ошибиться“, — поясняет Цоцос, разрабатывающий теорию „выборочной настройки“, объясняющую работу зрительного распознавания.
Большей части нейросетей недостаёт возможности вернуться назад. Такую функцию тяжело разработать. Одно из преимуществ нейросетей прямого распространения состоит в относительно простой процедуре их тренировки – прогоните изображение через шесть слоёв, и получите ответ. Но если нейросети разрешить возвращаться назад и изучать изображение повторно, ей потребуется сложное по сути понимание того, когда нужно пользоваться этой новой возможностью (когда надо смотреть повторно), а когда просто идти вперёд. Человеческий мозг переключается между этими процессами без усилий; нейросетям потребуется новая теоретическая платформа перед тем, как они смогут это делать.
Однако ведущие исследователи мира работают над этим, и они зовут на помощь. В сентябре 2018 Google AI объявил о старте соревнования по краудсорсингу классификаторов изображений, способных пробраться сквозь состязательные атаки. Чтобы победить, необходимо будет недвусмысленно различить изображения птиц и велосипедов. Этот первый шаг будет скромным, но необходимым.