Компьютеры, роботы, искусственный интеллект… В основе многих передовых технологий лежала необходимость воспроизведения или имитации человеческого мышления, чувств и поведения.

Различные датчики, например, акустические и видеосенсоры, а также датчики давления, были созданы после того, как мы разобрались, как устроены наши собственные слух и зрение, как мы воспринимаем давление.

Несомненно, одним из главных для человека органом чувств является зрение. Благодаря ему мы можем видеть среду, в которой находимся, интерпретировать и анализировать ситуацию, предпринимать адекватные действия.

Человеческое зрение — это невероятно сложная интеллектуальная «машина», которая задействует значительную часть головного мозга. Нейроны, предназначенные для обработки зрительной информации, занимают около 30% коры.

Вот уже несколько лет ученые и инженеры работают над созданием устройств, объектов и вещей, способных «видеть» окружающую среду, а также анализировать и интерпретировать увиденное.

Технологическая сложность, большая ресурсоемкость и непозволительно высокие затраты ранее ограничивали сферу применения компьютерного зрения и соответствующих инструментов аналитики, и поэтому они применялись только в составе систем безопасности и видеонаблюдения. Но сегодня ситуация резко изменилась, поскольку рынок видеосенсоров переживает бурный рост. Камеры встраиваются во всевозможные устройства, объекты и вещи — как мобильные, так и стационарные. Кроме того, вычислительная мощность конечных устройств и облачных решений резко возросла. И это привело к революции в области компьютерного зрения.

Доступная цена сенсоров и камер, различные передовые технологии, увеличение разрешения видеосенсоров, динамический диапазон и объем вычислительной мощности для обработки видео и изображений — все это приводит к более широкому распространению таких систем и появлению все новых вариантов их применения.
В современном мире подключенных встраиваемых систем, устройств и объектов стал возможным интеллектуальный анализ изображений и видео с применением классической обработки и глубинного обучения на основе ресурсов самого устройства, а также облачных вычислений.

В результате мы наблюдаем бум развития технологий автономных автомобилей, беспилотных летательных аппаратов, роботов, автоматизированных систем для промышленности, розничной торговли, транспорта, систем безопасности и видеонаблюдения, бытовой техники, медицинских устройств и решений для здравоохранения, спорта и сферы развлечений, расширенной и виртуальной реальности потребительского уровня и, разумеется, вездесущих мобильных телефонов. Технологии компьютерного зрения и соответствующих инструментов аналитики в составе Интернета вещей переживают бурное развитие, и это только начало.

Фактически видеосенсор произвел настоящую революцию, и в этом с ним не сравнится ни один другой датчик. Видео стало частью нашей повседневной жизни, и большинство людей уже считают это само собой разумеющимся. Потоковая передача видео, предоставление видео по запросу, видеозвонки — принимая во внимание все это, легко забыть о том, какое значительное влияние оказали датчики в мире подключенных к Интернету сред и устройств; поэтому видеосенсор — самый недооцененный герой в мире Интернета вещей. А в тандеме с технологиями интеллектуального анализа видео и изображений видеосенсоры создают новое измерение для всего рынка.

Одним из главных факторов бурного развития компьютерного зрения стало все более широкое распространение мобильных телефонов со встроенными камерами. До революции в сфере мобильных телефонов видеосенсоры и камеры, а также соответствующие инструменты аналитики применялись в основном в системах безопасности и видеонаблюдения. Но затем появились мобильные телефоны со встроенными камерами, что также сопровождалось активным ростом вычислительной мощности конечных устройств и облачных систем, доступной для систем видеоаналитики и интеллектуального анализа. Такая взрывная комбинация стала катализатором быстрого развития и распространения видеосенсоров, которые начали использоваться повсеместно, от роботов и дронов до автомобилей, промышленного оборудования, бытовой техники и т. д.

Существуют различные типы видеосенсоров, но комплементарные элементы металл-оксид-полупроводник или CMOS-датчики, безусловно, оказали самое большое влияние и привели к взрывному развитию этих технологий и встраиванию видеосенсоров в различные системы и смартфоны.

Датчики повсюду, и они многочисленны. Автономные автомобили сегодня используют более 10 видеокамер, дроны — от трех до четырех, камеры видеонаблюдения установлены практически повсеместно, мобильные телефоны уже умеют транслировать видео в режиме реального времени. Видеоинформация из этих источников передается в облако для дальнейшего анализа, а обработка в реальном времени выполняется на самих устройствах.
Разрешение и динамический диапазон видеосенсоров, а также их количество, продолжают увеличиваться, и в обозримой перспективе эта тенденция будет только набирать обороты. Для обработки, передачи и хранения больших объемов видеоинформации требуются все более значительные ресурсы.

Поначалу все старались передавать потоковое видео в облака для его анализа в режиме реального времени или постфактум. Облака предоставляли огромную вычислительную мощность, но для передачи видео, даже после сжатия, требовались каналы с очень высокой пропускной способностью. Необходимость хранения огромных объемов данных, существенные задержки и возможные проблемы с безопасностью и конфиденциальностью заставляют пользователей переосмысливать подходы к применению облачных вычислений. Теперь многие анализируют видеоинформацию на уровне устройства или объекта, а затем выполняют автономную обработку видео в облаке.

А с появлением новой высокоскоростной связи 5G, обеспечивающей минимальные задержки, возникла идея распределить задачи обработки видео в реальном времени между конечными устройствами и облачными средами. Тем не менее еще только предстоит выяснить, насколько это возможно (если возможно в принципе) и имеет ли смысл передавать сжатое видео от миллионов конечных точек в облако в реальном времени, практически полностью загружая каналы связи.

По мере осознания важности аналитики на уровне конечных устройств все более широкое распространение получали различные системы на кристалле (SoC), графические процессоры (GPU) и видеоускорители. Облачные ресурсы с ускорением GPU используются для анализа архивного видео или обучения нейронных сетей на большом количестве тестовых данных, а обработка в режиме реального времени происходит на самих конечных устройствах с ускорителями.

Технологии глубинного обучения и оптимизированные SoC, наряду с видеоускорителями для традиционной обработки изображений, способствуют поддержанию тенденции к выполнению анализа на конечных устройствах, при этом дополнительные события, параметры и аналитика передаются в облака для дальнейшего исследования и сопоставления. Облачные ресурсы по-прежнему будут применяться для анализа видеоархивов, в то время как некоторые системы все еще будут выполнять анализ в режиме реального времени.

Компьютерное зрение. Реальные примеры использования


Рынок технологий компьютерного зрения и соответствующих инструментов аналитики продолжит активное развитие. В настоящее время наблюдаются определенные удивительные тенденции в сфере технологий, и они должны придать новый импульс развитию систем компьютерного зрения на годы вперед. Вот лишь некоторые примеры:

3D-камеры и 3D-сенсоры. 3D-камеры или, в более общем смысле, сенсорная техника с поддержкой 3D, позволяющая определять глубину в сцене и строить 3D-карты сцены. Эта технология появилась некоторое время назад, и сегодня она широко используется в игровых системах, таких как Microsoft Kinect, а совсем недавно она была применена в 3D-сенсоре iPhoneX для биометрии. И этот рынок снова ждет бурный рост, когда смартфоны смогут обеспечивать необходимое ускорение для гораздо более широкого набора вариантов применения. Кроме того, роботы, дроны и автономные автомобили с 3D-камерами смогут распознавать форму и размер объектов и будут использовать эти технологии для навигации, составления карт и обнаружения препятствий. 3D- и стереоскопические камеры также являются основой дополненной, виртуальной и смешанной реальности.

Глубинное обучение на конечных устройствах и в облаке. Системы искусственного интеллекта на основе нейронных сетей получают все более широкое распространение. Опять же развертывание сетей глубинного обучения стало возможным только благодаря доступной сегодня колоссальной вычислительной мощности. Существуют и другие факторы, которые привели к бурному развитию нейронных сетей и вариантов их практического применения, это в том числе наличие огромных объемов данных (видео, фотографии, текст), доступных для обучения и проведения передовых исследований и разработок в университетах и компаниях первого уровня, которые вносят свой вклад в популяризацию и развитие открытых решений и систем. В результате возникает большое количество нейронных сетей, применяемых для решения конкретных практических задач. В самом деле, для роботов, автономных автомобилей и дронов глубинное обучение с применением GPU/SoC на конечных устройствах уже стало нормой. Облачные ресурсы по-прежнему будут использоваться в рамках сетей глубинного обучения, а также для обработки видео из архивов. Обработка данных в рамках распределенных архитектур, охватывающих конечные устройства и облака, также возможна, поскольку сетевые задержки и задержки видеопотока уже считаются приемлемыми.

SLAM в автомобилях, роботах, дронах. Одновременная локализация и картирование (Simultaneous Localization And Mapping, SLAM) — ключевой компонент автономных автомобилей, роботов и дронов, оснащенных различными типами камер и сенсоров, включая радар, лидар, ультразвуковые датчики и т. д.

Дополненная/виртуальная реальность и перцепционные вычисления. Возьмем для примера Microsoft HoloLens. На чем базируется эта система? Шесть камер в сочетании с датчиками глубины. Корпорация Microsoft даже объявила о создании исследовательского центра в Кембридже (США), который специализируется на разработке технологий компьютерного зрения для HoloLens.

Безопасность/видеонаблюдение. В данной статье не затрагивается это направление сбора и анализа видеоинформации. Это сам по себе очень крупный рынок.

Биометрическая аутентификация в мобильных телефонах и встроенных устройствах. Биометрическая аутентификация может придать новый импульс для развития мобильных приложений, и здесь опять же применяются видеосенсоры в сочетании с инструментами аналитики на конечных устройствах и в облаках. По мере развития эта технология будет реализована в различных встраиваемых устройствах.

Розничная торговля. Магазин Amazon Go являет собой пример использования камер и передовой видеоаналитики. Вскоре у стеллажей покупателей будут встречать роботы-консультанты, оснащенные несколькими камерами с системой анализа видео, а также другими датчиками.

СМИ. Видеоаналитика уже широко используется в медиаиндустрии. Системы видеоаналитики позволяют просматривать большие видеофайлы в поисках определенной темы, сцены, объекта или лица.

Спорт. 3D-видео реального времени, видеоаналитика и виртуальная реальность позволят создавать персонализированные спортивные и развлекательные системы нового поколения.

Перспективы, вызовы, мотивы и проблемы


Потребность в постоянном увеличении разрешения, динамического диапазона и частоты кадров видео, а также производительности систем видеоаналитики приводит к необходимости соответствующего повышения вычислительной мощности и расширения возможностей систем передачи и хранения данных. И решать эти задачи оперативно удается не всегда.

Несколько компаний придерживаются другого подхода к решению этой проблемы. В основе нейронных сетей лежат результаты исследований в области биологии, аналогичным образом начинают появляться разработки и коммерческие продукты в сфере компьютерного зрения, которые реагируют на изменения в сцене и генерируют поток из небольшого количества событий вместо того, чтобы передавать последовательность изображений. Это позволит применять системы сбора и обработки видеоинформации с гораздо более скромными возможностями.

Такой подход представляется многообещающим, он может кардинально изменить способы получения и обработки видео. В результате значительного уменьшения требуемой вычислительной мощности также будет достигаться большая экономия электроэнергии.

Видеосенсоры по-прежнему будут главными катализаторами бурного развития Интернета вещей. Аналогичным образом видеоаналитика на уровне конечных устройств будет продолжать стимулировать развитие индустрии SoC и полупроводников, способствуя совершенствованию видеоускорителей, использующих GPU, специализированных интегральных схем (ASIC), программируемых SoC для логического вывода, программируемых пользователем вентильных матриц (FPGA) и алгоритмов обработки цифровых сигналов (DSP). Все это также будет способствовать совершенствованию традиционных систем обработки изображений и технологий глубинного обучения, а разработчики получат более широкие возможности для программирования.

Сегодня это поле битвы, на котором сошлись многие крупные игроки и стартапы.

Встроенные видеосенсоры с низким энергопотреблением


В настоящее время миллионы объектов с автономным питанием используют видеосенсоры и видеоаналитику, поэтому совершенствование встроенных видеосенсоров с низким энергопотреблением остается одним из главных факторов роста всей отрасли в новую эпоху, а также одной из ключевых проблем, которую нужно решить. Появление устройств и систем со встроенными видеосенсорами и инструментами видеоаналитики обусловливает необходимость анализа и устранения проблем конфиденциальности и безопасности уже на стадии проектирования.

Несмотря на все проблемы и вызовы, у систем, сочетающих в себе технологии компьютерного зрения и Интернета вещей, большое будущее и огромные рыночные возможности, поэтому компании, которые смогут справиться с этими проблемами и вызовами, будут вознаграждены сполна.

Комментарии (5)


  1. MMik
    20.03.2018 13:03

    Какие проекты есть в вашей компании по компьютерному зрению и по Интернету вещей?


    1. ICLServices Автор
      20.03.2018 16:23

      У нас в компании сейчас в активной фазе два проекта: по одному в каждой из этих тем. Оба проекта из класса Enterprise IoT, т.к. пользовтельским или personal IoT мы не занимаемся. Суть проектов в следующем:

      IoT: система мониторинга среды в рабочих помещениях, чтобы сделать работу наших сотрудников более комфортной, а информированность административных служб о проблемах с офисной средой более оперативной и полной. В части контролируемых параметров входят: температура, влажность, уровень CO2, уровень шума. В стадии активной работы интеграции с промышленными приточно-вытяжными системами.

      Computer vision: в данном секторе у нас решение для крупного и среднегоритейла. Решение позволяет автоматизировать продажу отдельных групп товаров, которые продаются по возрастному ограничинию, на кассах самообслуживания. В данный момент в большинстве торговых центров продажа алкоголя и сигарет невозможна на селфчекаутах. С помощью компьютерного зрения мы пытаемся решить эту проблему.


      1. MMik
        22.03.2018 09:41

        То есть IoT пока только для себя делаете. Это в Усадах на заводе?
        Computer vision для self-checkout с алкоголем/куревом в ритейле – это классно. Часто забываю, что с бутылкой вина надо в обычную кассу идти. Там распознавание ID карты, распознавание машиночитаемого кода ID карты, или прямо по лицу возраст угадываете?
        Спасибо за ответы.


        1. ICLServices Автор
          22.03.2018 10:06

          Решения IoT на собственной платформенной части пока только для собственных нужд, но, как уже сказал, после реализации интеграции с промышленными системами вентиляции будем смотреть на рынок. На заводе в Усадах, возможно масштабируем систему на иные показатели типа запыленности, угарного газа, т.к. там именно производственная специфика будет более актуальна, нежели офисная.

          Если говорить о партнерских решениях IoT, то начинаем работать по автоматизации промышленных предприятий в части мониторинга станков ЧПУ, построения предиктивных моделей выхода из строя, анализ и контроль перемещений объектов (загатовок, сборок, готовых изделий) внутри помещений на базе RFID и т.п. Это потенциальные проекты с партнером-разработчиком IIoT-платформы Winnum отечественной компанией СИГНУМ.

          По computer-vision только бескомпромисные решения — по лицу покупателя стараемся определять возраст)


          1. MMik
            22.03.2018 18:23

            Спасибо. Молодцы.