По некоторым параметрам машинное зрение превосходит человеческое. По другим, возможно, оно никогда нас не догонит.




Когда инженеры впервые решили научить компьютеры видеть, они считали само собой разумеющимся, что компьютеры будут видеть всё так же, как люди. Первые предложения по компьютерному зрению из 1960-х были «очевидно мотивированы характеристиками человеческого зрения», — сказал Джон Цоцос, специалист по информатике из Йоркского университета.

С тех пор многое поменялось.

Компьютерное зрение переросло стадию воздушных замков и превратилось в активно развивающуюся область. Сегодня компьютеры опережают людей в некоторых задачах по распознаванию образов, к примеру, в классификации картинок («собака или волк?») или обнаружении аномалий на медицинских фотографиях. И процесс обработки визуальных данных «нейросетями» всё сильнее отличается от процесса, используемого людьми.

Компьютеры обыгрывают нас в нашей же игре, играя в неё по другим правилам.

Лежащие в основе компьютерного зрения нейросети – штука довольно простая. Они получают на вход изображение и обрабатывают его в несколько этапов. Сначала они распознают пиксели, потом грани и контуры, потом объекты целиком, и в итоге выдают догадку о том, что им подсунули. Эти системы называются нейросетями прямого распространения, поскольку их работа похожа на конвейер.

Мы многого не знаем о человеческом зрении, но знаем, что оно так не работает. В нашей недавней истории "Математическая модель раскрывает секреты зрения" мы описали новую математическую модель, которая пытается объяснить главную загадку человеческого зрения: как зрительная кора мозга воссоздаёт яркие и точные представления о мире на основе скудной информации, которую она получает от сетчатки.

Эта модель предполагает, что зрительной коре удаётся работать благодаря последовательности нейронных петель обратной связи, перерабатывающих небольшие изменения данных, поступающих из внешнего мира, в разнообразный спектр изображений, предстающих перед нашим внутренним восприятием. Этот процесс с обратной связью сильно отличается от методов прямого распространения, с которыми работает компьютерное зрение.

«Данная работа демонстрирует, насколько работа зрительной коры сложна, и каком-то смысле, отлична» от компьютерного зрения, сказал Джонатан Виктор, нейробиолог из Корнеллского университета.

Однако в некоторых задачах компьютерное зрение превосходит человеческое. Возникает вопрос: а нужно ли вообще строить схемы компьютерного зрения, опираясь на человеческое?

В каком-то смысле, ответ на него будет отрицательным. Информация, доходящая до зрительной коры, ограничивается анатомией: с внешним миром зрительную кору соединяет относительно небольшое количество нервов, что ограничивает количество визуальных данных, с которыми приходится работать зрительной коре. У компьютеров нет таких проблем с пропускной способностью, поэтому им нет причин для того, чтобы работать с недостатком информации.

«Если бы у меня были бесконечные вычислительные мощности и бесконечная память, нужно бы мне было ограничивать поток информации? Вероятно, нет», — сказал Цоцос. Однако он думает, что пренебрегать человеческим зрением неосмотрительно.

Задачи классификации, в которых компьютеры достигли успеха в наше время, слишком простые для компьютерного зрения, говорит он. Чтобы успешно решать эти задачи, нужно лишь находить корреляции в массивных наборах данных. Для более сложных задач, типа осмотра объекта с разных углов зрения с целью распознать его (примерно как человек знакомится со статуей, обходя её с разных сторон), таких корреляций может оказаться недостаточно. Для правильного их выполнения компьютерам, возможно, придётся поучиться у человека.

В прошлом году в интервью нашему журналу пионер искусственного интеллекта Джуда Перл говорил о том же в более общем контексте, утверждая, что корреляционного обучения окажется недостаточно для развития ИИ-систем в долгосрочной перспективе.

К примеру, ключевой особенностью зрения человека является замедленная реакция. Мы обрабатываем зрительную информацию и приходим к заключению о том, что мы видим. Когда это заключение нас не устраивает, мы смотрим на происходящее ещё раз, и часто этот второй взгляд точнее сообщает нам о том, что происходит. У систем компьютерного зрения, работающих по схеме прямого распространения, нет такой возможности, из-за чего они часто с треском проваливают даже простейшие задачи по распознаванию образов.

У человеческого зрения есть и ещё один, менее явный и более важный аспект, которого не хватает компьютерному зрению.

Зрительная система человека совершенствуется годами. В работе 2019 года, которую Цоцос писал вместе с коллегами, было обнаружено, что способность подавлять зашумлённость в перенасыщенной деталями сцене и сосредотачиваться на том, что им нужно, появляется у людей только в возрасте около 17 лет. Другие исследователи обнаружили, что возможность распознавать лица постоянно улучшается вплоть до 20 лет.

Системы компьютерного зрения работают, переваривая огромные массивы данных. Лежащая в их основе архитектура фиксирована и не меняется со временем так, как это происходит в мозге. А если базовые механизмы обучения настолько различны, не будут ли различными и результаты? Цоцос считает, что системы компьютерного зрения в итоге ждёт расплата.

«Обучение у этих методов глубокого обучения находится настолько далеко от обучения человека, насколько это возможно, — сказал он. – Поэтому, как мне кажется, их ждёт тупик. Они достигнут предела развития, за который уже не смогут выйти».

Комментарии (3)


  1. martin__marlen
    04.10.2019 12:18

    Вряд ли можно научиться видеть в человеческом смысле этого слова без параллельного моделирования окружающего мира.
    Маленький человек в процессе развития учится видеть все больше и больше. В процессе «видения» Формируется модель окружающего мира и язык описания этой модели. Здесь надо учесть, что этот язык в полном объеме не формализуется отдельно от коyкретной модели. Это. условно, говоря аналоговый язык. Все его представления по большой части, сенсорные. Как следствие этого — все люди «видят» по разному. (У Лукьяненко в Диптауне из-за этого есть слабое место — на плохой технике и каналах в первых версиях диптауна люди бы часто «видели» настолько разные картинки, что их диалог походил бы на диалог шизофреников)

    Я хочу сказать что «Видеть» без «понимать» ( понимать — это найти объекту-субьекту адекватное место в своей модели мира ) полезно настолько? насколько полезна регистрация что изображение на z% соответствует некоторому, хранящемуся в памяти.


  1. DrunkBear
    04.10.2019 12:24

    Я пойму, что нейросеть близка к человеческому зрению, когда сеть не сможет отличить то самое платье: сине-черное или бело-золотое?


    1. vasiaplaton
      05.10.2019 09:36

      Но зачем переносить баги из системв придуманой природой для выживания в антропогенную систему придуманую человеком для решения конкретной задачи