Компьютеры, роботы, искусственный интеллект… В основе многих передовых технологий лежала необходимость воспроизведения или имитации человеческого мышления, чувств и поведения.
Различные датчики, например, акустические и видеосенсоры, а также датчики давления, были созданы после того, как мы разобрались, как устроены наши собственные слух и зрение, как мы воспринимаем давление.
Несомненно, одним из главных для человека органом чувств является зрение. Благодаря ему мы можем видеть среду, в которой находимся, интерпретировать и анализировать ситуацию, предпринимать адекватные действия.
Человеческое зрение — это невероятно сложная интеллектуальная «машина», которая задействует значительную часть головного мозга. Нейроны, предназначенные для обработки зрительной информации, занимают около 30% коры.
Вот уже несколько лет ученые и инженеры работают над созданием устройств, объектов и вещей, способных «видеть» окружающую среду, а также анализировать и интерпретировать увиденное.
Технологическая сложность, большая ресурсоемкость и непозволительно высокие затраты ранее ограничивали сферу применения компьютерного зрения и соответствующих инструментов аналитики, и поэтому они применялись только в составе систем безопасности и видеонаблюдения. Но сегодня ситуация резко изменилась, поскольку рынок видеосенсоров переживает бурный рост. Камеры встраиваются во всевозможные устройства, объекты и вещи — как мобильные, так и стационарные. Кроме того, вычислительная мощность конечных устройств и облачных решений резко возросла. И это привело к революции в области компьютерного зрения.
Доступная цена сенсоров и камер, различные передовые технологии, увеличение разрешения видеосенсоров, динамический диапазон и объем вычислительной мощности для обработки видео и изображений — все это приводит к более широкому распространению таких систем и появлению все новых вариантов их применения.
В современном мире подключенных встраиваемых систем, устройств и объектов стал возможным интеллектуальный анализ изображений и видео с применением классической обработки и глубинного обучения на основе ресурсов самого устройства, а также облачных вычислений.
В результате мы наблюдаем бум развития технологий автономных автомобилей, беспилотных летательных аппаратов, роботов, автоматизированных систем для промышленности, розничной торговли, транспорта, систем безопасности и видеонаблюдения, бытовой техники, медицинских устройств и решений для здравоохранения, спорта и сферы развлечений, расширенной и виртуальной реальности потребительского уровня и, разумеется, вездесущих мобильных телефонов. Технологии компьютерного зрения и соответствующих инструментов аналитики в составе Интернета вещей переживают бурное развитие, и это только начало.
Фактически видеосенсор произвел настоящую революцию, и в этом с ним не сравнится ни один другой датчик. Видео стало частью нашей повседневной жизни, и большинство людей уже считают это само собой разумеющимся. Потоковая передача видео, предоставление видео по запросу, видеозвонки — принимая во внимание все это, легко забыть о том, какое значительное влияние оказали датчики в мире подключенных к Интернету сред и устройств; поэтому видеосенсор — самый недооцененный герой в мире Интернета вещей. А в тандеме с технологиями интеллектуального анализа видео и изображений видеосенсоры создают новое измерение для всего рынка.
Одним из главных факторов бурного развития компьютерного зрения стало все более широкое распространение мобильных телефонов со встроенными камерами. До революции в сфере мобильных телефонов видеосенсоры и камеры, а также соответствующие инструменты аналитики применялись в основном в системах безопасности и видеонаблюдения. Но затем появились мобильные телефоны со встроенными камерами, что также сопровождалось активным ростом вычислительной мощности конечных устройств и облачных систем, доступной для систем видеоаналитики и интеллектуального анализа. Такая взрывная комбинация стала катализатором быстрого развития и распространения видеосенсоров, которые начали использоваться повсеместно, от роботов и дронов до автомобилей, промышленного оборудования, бытовой техники и т. д.
Существуют различные типы видеосенсоров, но комплементарные элементы металл-оксид-полупроводник или CMOS-датчики, безусловно, оказали самое большое влияние и привели к взрывному развитию этих технологий и встраиванию видеосенсоров в различные системы и смартфоны.
Датчики повсюду, и они многочисленны. Автономные автомобили сегодня используют более 10 видеокамер, дроны — от трех до четырех, камеры видеонаблюдения установлены практически повсеместно, мобильные телефоны уже умеют транслировать видео в режиме реального времени. Видеоинформация из этих источников передается в облако для дальнейшего анализа, а обработка в реальном времени выполняется на самих устройствах.
Разрешение и динамический диапазон видеосенсоров, а также их количество, продолжают увеличиваться, и в обозримой перспективе эта тенденция будет только набирать обороты. Для обработки, передачи и хранения больших объемов видеоинформации требуются все более значительные ресурсы.
Поначалу все старались передавать потоковое видео в облака для его анализа в режиме реального времени или постфактум. Облака предоставляли огромную вычислительную мощность, но для передачи видео, даже после сжатия, требовались каналы с очень высокой пропускной способностью. Необходимость хранения огромных объемов данных, существенные задержки и возможные проблемы с безопасностью и конфиденциальностью заставляют пользователей переосмысливать подходы к применению облачных вычислений. Теперь многие анализируют видеоинформацию на уровне устройства или объекта, а затем выполняют автономную обработку видео в облаке.
А с появлением новой высокоскоростной связи 5G, обеспечивающей минимальные задержки, возникла идея распределить задачи обработки видео в реальном времени между конечными устройствами и облачными средами. Тем не менее еще только предстоит выяснить, насколько это возможно (если возможно в принципе) и имеет ли смысл передавать сжатое видео от миллионов конечных точек в облако в реальном времени, практически полностью загружая каналы связи.
По мере осознания важности аналитики на уровне конечных устройств все более широкое распространение получали различные системы на кристалле (SoC), графические процессоры (GPU) и видеоускорители. Облачные ресурсы с ускорением GPU используются для анализа архивного видео или обучения нейронных сетей на большом количестве тестовых данных, а обработка в режиме реального времени происходит на самих конечных устройствах с ускорителями.
Технологии глубинного обучения и оптимизированные SoC, наряду с видеоускорителями для традиционной обработки изображений, способствуют поддержанию тенденции к выполнению анализа на конечных устройствах, при этом дополнительные события, параметры и аналитика передаются в облака для дальнейшего исследования и сопоставления. Облачные ресурсы по-прежнему будут применяться для анализа видеоархивов, в то время как некоторые системы все еще будут выполнять анализ в режиме реального времени.
Компьютерное зрение. Реальные примеры использования
Рынок технологий компьютерного зрения и соответствующих инструментов аналитики продолжит активное развитие. В настоящее время наблюдаются определенные удивительные тенденции в сфере технологий, и они должны придать новый импульс развитию систем компьютерного зрения на годы вперед. Вот лишь некоторые примеры:
3D-камеры и 3D-сенсоры. 3D-камеры или, в более общем смысле, сенсорная техника с поддержкой 3D, позволяющая определять глубину в сцене и строить 3D-карты сцены. Эта технология появилась некоторое время назад, и сегодня она широко используется в игровых системах, таких как Microsoft Kinect, а совсем недавно она была применена в 3D-сенсоре iPhoneX для биометрии. И этот рынок снова ждет бурный рост, когда смартфоны смогут обеспечивать необходимое ускорение для гораздо более широкого набора вариантов применения. Кроме того, роботы, дроны и автономные автомобили с 3D-камерами смогут распознавать форму и размер объектов и будут использовать эти технологии для навигации, составления карт и обнаружения препятствий. 3D- и стереоскопические камеры также являются основой дополненной, виртуальной и смешанной реальности.
Глубинное обучение на конечных устройствах и в облаке. Системы искусственного интеллекта на основе нейронных сетей получают все более широкое распространение. Опять же развертывание сетей глубинного обучения стало возможным только благодаря доступной сегодня колоссальной вычислительной мощности. Существуют и другие факторы, которые привели к бурному развитию нейронных сетей и вариантов их практического применения, это в том числе наличие огромных объемов данных (видео, фотографии, текст), доступных для обучения и проведения передовых исследований и разработок в университетах и компаниях первого уровня, которые вносят свой вклад в популяризацию и развитие открытых решений и систем. В результате возникает большое количество нейронных сетей, применяемых для решения конкретных практических задач. В самом деле, для роботов, автономных автомобилей и дронов глубинное обучение с применением GPU/SoC на конечных устройствах уже стало нормой. Облачные ресурсы по-прежнему будут использоваться в рамках сетей глубинного обучения, а также для обработки видео из архивов. Обработка данных в рамках распределенных архитектур, охватывающих конечные устройства и облака, также возможна, поскольку сетевые задержки и задержки видеопотока уже считаются приемлемыми.
SLAM в автомобилях, роботах, дронах. Одновременная локализация и картирование (Simultaneous Localization And Mapping, SLAM) — ключевой компонент автономных автомобилей, роботов и дронов, оснащенных различными типами камер и сенсоров, включая радар, лидар, ультразвуковые датчики и т. д.
Дополненная/виртуальная реальность и перцепционные вычисления. Возьмем для примера Microsoft HoloLens. На чем базируется эта система? Шесть камер в сочетании с датчиками глубины. Корпорация Microsoft даже объявила о создании исследовательского центра в Кембридже (США), который специализируется на разработке технологий компьютерного зрения для HoloLens.
Безопасность/видеонаблюдение. В данной статье не затрагивается это направление сбора и анализа видеоинформации. Это сам по себе очень крупный рынок.
Биометрическая аутентификация в мобильных телефонах и встроенных устройствах. Биометрическая аутентификация может придать новый импульс для развития мобильных приложений, и здесь опять же применяются видеосенсоры в сочетании с инструментами аналитики на конечных устройствах и в облаках. По мере развития эта технология будет реализована в различных встраиваемых устройствах.
Розничная торговля. Магазин Amazon Go являет собой пример использования камер и передовой видеоаналитики. Вскоре у стеллажей покупателей будут встречать роботы-консультанты, оснащенные несколькими камерами с системой анализа видео, а также другими датчиками.
СМИ. Видеоаналитика уже широко используется в медиаиндустрии. Системы видеоаналитики позволяют просматривать большие видеофайлы в поисках определенной темы, сцены, объекта или лица.
Спорт. 3D-видео реального времени, видеоаналитика и виртуальная реальность позволят создавать персонализированные спортивные и развлекательные системы нового поколения.
Перспективы, вызовы, мотивы и проблемы
Потребность в постоянном увеличении разрешения, динамического диапазона и частоты кадров видео, а также производительности систем видеоаналитики приводит к необходимости соответствующего повышения вычислительной мощности и расширения возможностей систем передачи и хранения данных. И решать эти задачи оперативно удается не всегда.
Несколько компаний придерживаются другого подхода к решению этой проблемы. В основе нейронных сетей лежат результаты исследований в области биологии, аналогичным образом начинают появляться разработки и коммерческие продукты в сфере компьютерного зрения, которые реагируют на изменения в сцене и генерируют поток из небольшого количества событий вместо того, чтобы передавать последовательность изображений. Это позволит применять системы сбора и обработки видеоинформации с гораздо более скромными возможностями.
Такой подход представляется многообещающим, он может кардинально изменить способы получения и обработки видео. В результате значительного уменьшения требуемой вычислительной мощности также будет достигаться большая экономия электроэнергии.
Видеосенсоры по-прежнему будут главными катализаторами бурного развития Интернета вещей. Аналогичным образом видеоаналитика на уровне конечных устройств будет продолжать стимулировать развитие индустрии SoC и полупроводников, способствуя совершенствованию видеоускорителей, использующих GPU, специализированных интегральных схем (ASIC), программируемых SoC для логического вывода, программируемых пользователем вентильных матриц (FPGA) и алгоритмов обработки цифровых сигналов (DSP). Все это также будет способствовать совершенствованию традиционных систем обработки изображений и технологий глубинного обучения, а разработчики получат более широкие возможности для программирования.
Сегодня это поле битвы, на котором сошлись многие крупные игроки и стартапы.
Встроенные видеосенсоры с низким энергопотреблением
В настоящее время миллионы объектов с автономным питанием используют видеосенсоры и видеоаналитику, поэтому совершенствование встроенных видеосенсоров с низким энергопотреблением остается одним из главных факторов роста всей отрасли в новую эпоху, а также одной из ключевых проблем, которую нужно решить. Появление устройств и систем со встроенными видеосенсорами и инструментами видеоаналитики обусловливает необходимость анализа и устранения проблем конфиденциальности и безопасности уже на стадии проектирования.
Несмотря на все проблемы и вызовы, у систем, сочетающих в себе технологии компьютерного зрения и Интернета вещей, большое будущее и огромные рыночные возможности, поэтому компании, которые смогут справиться с этими проблемами и вызовами, будут вознаграждены сполна.
MMik
Какие проекты есть в вашей компании по компьютерному зрению и по Интернету вещей?
ICLServices Автор
У нас в компании сейчас в активной фазе два проекта: по одному в каждой из этих тем. Оба проекта из класса Enterprise IoT, т.к. пользовтельским или personal IoT мы не занимаемся. Суть проектов в следующем:
IoT: система мониторинга среды в рабочих помещениях, чтобы сделать работу наших сотрудников более комфортной, а информированность административных служб о проблемах с офисной средой более оперативной и полной. В части контролируемых параметров входят: температура, влажность, уровень CO2, уровень шума. В стадии активной работы интеграции с промышленными приточно-вытяжными системами.
Computer vision: в данном секторе у нас решение для крупного и среднегоритейла. Решение позволяет автоматизировать продажу отдельных групп товаров, которые продаются по возрастному ограничинию, на кассах самообслуживания. В данный момент в большинстве торговых центров продажа алкоголя и сигарет невозможна на селфчекаутах. С помощью компьютерного зрения мы пытаемся решить эту проблему.
MMik
То есть IoT пока только для себя делаете. Это в Усадах на заводе?
Computer vision для self-checkout с алкоголем/куревом в ритейле – это классно. Часто забываю, что с бутылкой вина надо в обычную кассу идти. Там распознавание ID карты, распознавание машиночитаемого кода ID карты, или прямо по лицу возраст угадываете?
Спасибо за ответы.
ICLServices Автор
Решения IoT на собственной платформенной части пока только для собственных нужд, но, как уже сказал, после реализации интеграции с промышленными системами вентиляции будем смотреть на рынок. На заводе в Усадах, возможно масштабируем систему на иные показатели типа запыленности, угарного газа, т.к. там именно производственная специфика будет более актуальна, нежели офисная.
Если говорить о партнерских решениях IoT, то начинаем работать по автоматизации промышленных предприятий в части мониторинга станков ЧПУ, построения предиктивных моделей выхода из строя, анализ и контроль перемещений объектов (загатовок, сборок, готовых изделий) внутри помещений на базе RFID и т.п. Это потенциальные проекты с партнером-разработчиком IIoT-платформы Winnum отечественной компанией СИГНУМ.
По computer-vision только бескомпромисные решения — по лицу покупателя стараемся определять возраст)
MMik
Спасибо. Молодцы.