С каждым годом в России растёт число камер видеонаблюдения. Москва уже входит в TOP 30 городов мира по числу «электронных глаз»: к 2023 году городские власти довели число действующих камер наблюдения до 193 тысяч. Они обеспечивают безопасность на дорогах, в аэропортах, на вокзалах, в парках и других общественных местах. Также в столице началось развёртывание системы интеллектуального видеонаблюдения нового поколения, анализирующей изображения с помощью искусственных нейросетей. За пять лет планируется установить ещё 1300 комплексов — каждый из трёх камер. Система обойдётся минимум в 4,2 млрд рублей. Столь высокая сумма обусловлена не столько дороговизной самих камер, сколько стоимостью серверов для видеоаналитики с использованием ИИ, а также затратами на скоростную сеть, рассчитанную на тысячи камер.
Специалисты компании «Криптонит» разработали более эффективный подход к обработке видеоданных с помощью искусственных нейронных сетей. История этой разработки началась с того, что в отделе перспективных исследований придумали, как эффективно использовать любые камеры оснастив их искусственным интеллектом на основе компактного тензорного ускорителя Google Coral, чтобы часть данных анализировалась рядом с их источником. Такой подход позволяет на порядки снизить трафик, разгрузив сервер видеоаналитики. Кроме того, он повышает скорость реагирования всей системы и даёт возможность использовать продвинутые технологии. Про одну из них мы уже писали, а теперь расскажем о её дальнейшем развитии.
В основе этой разработки «Криптонита» лежит сочетание принципа «граничных вычислений» (edge computing) и усовершенствованного метода реидентификации (re-ID), в данном случае — повторном распознавании человека нейросетью на изображениях с разных камер по внешним признакам: цвету и текстуре элементов одежды и тела человека. При реидентификации человек рассматривается в полный рост, а его лицо может быть вовсе не видно. Поэтому re-ID и распознавание лиц могут использоваться как раздельно, так и дополнять друг друга.
Где это может быть востребовано? Везде, где требуется быстро найти человека в городе и восстановить его маршрут. Допустим, потерялся ребёнок. Система быстро обнаружит его даже по сбивчивому словесному портрету. Произошло ограбление? Можно восстановить маршрут преступников по записям с разных камер, увидеть их лица до надевания масок, узнать марку и номер машины, на которой они приехали.
Ранее технология реидентификации полагалась только на нейросети, поэтому требовала мощных серверов, оснащённых ускорителями вычислений и большими объёмами памяти. Разработанная в «Криптоните» комбинированная методика реидентификации не так ресурсоёмка и более универсальна, при этом она позволяет достигать сравнимой и даже более высокой точности.
Задача re-ID разделяется в ней на два этапа. Сначала нейросеть находит на изображении области, соответствующие различным частям тела или одежды (human parser). Затем уже аналитическими методами эти области кодируются в наборы чисел согласно цвету, текстуре и другим анализируемым признакам, по которым и определяется степень подобия фрагментов. Это позволяет хранить в базе данных и пересылать по сети не сами изображения (0,3–1 МБ каждое), а наборы чисел, сжимаемые примерно до 5–10 кб. Соответственно, по ним гораздо быстрее выполняется поиск и сравнение. Предложенный метод обеспечивает скорость обработки от 3 до 40 FPS в зависимости от базовой модели (backbone) для нейросети, используемой Google Coral, что удовлетворяет критериями real-time систем.
Ещё одно важное преимущество гибридного метода re-ID состоит в том, что он улучшает обобщающую способность нейросети и не зависит от обучающего датасета! Иными словами, нейросеть, обученная на изображениях людей у торгового центра, будет столь же эффективна при анализе другого набора видеозаписей (например, людей у вокзала, которых она ни разу не видела).
На этом фоне классические нейросетевые решения и вовсе выглядят неконкурентоспособно. Они достигают высокой точности только при обучении на типовых датасетах в лабораторных условиях. В реальных сценариях их точность падает в разы, если требуется применять нейросеть, обученную на датасете "А" к анализу датасета "Б".
Разница двух подходов к re-ID становится ещё более заметна, если заглянуть «под капот». Многие существующие решения для реидентификации основаны на предположении, что человек стоит прямо, а в поле зрения камеры нет преград. Поэтому они значительно теряют в точности, если это не так. В комбинированной методике парсер позволяет работать с любыми позами, а кодируемые наборы признаков индифферентны к изменению пространственного положения элементов и их размеру. По той же причине комбинированное решение для re-ID менее чувствительно к помехам и более устойчиво к атакам на нейросети (если только их вектор атаки не будет направлен на сам парсер).
Вдобавок, чисто нейросетевые решения учат атрибуты, которые не интерпретируемы человеком, а в комбинированной методике реидентификации они могут быть понятны оператору. Если в классическом варианте re-ID для поиска можно задать только картинку-образец, то разработанная в «Криптоните» технология позволяет искать по текстовым описаниям или даже голосовым запросам.
Например: «Найди человека в синих шортах и белой футболке». Описание может быть и неполным! Система в любом случае выдаст заданное количество подходящих изображений, указав на каждом из них процент совпадения. При поиске потерявшихся детей это бесценно, так как позволяет сразу отправиться туда, где ребёнок прошёл перед камерой только что, а не N часов назад.
Разумеется, новый подход к re-ID тоже имеет свои ограничения. От быстрой смены внешности (переодевания) в принципе нет защиты, а если все люди выглядят одинаково (например, носят форму), их трекинг становится затруднён, или даже невозможен. Авторы продолжают совершенствовать методику и разрабатывают способы увеличить чувствительность метода при распознавании текстур в тех случаях, где цвета не являются доминирующим признаком.
Предложенный подход комбинации аналитических методов и технологий ИИ позволяет создать «канал общения» между человеком и искусственной нейросетью. В данном случае комбинирование позволяет человеку формулировать запросы в удобной и понятной для него форме. Это открывает возможность для более осмысленного взаимодействия оператора с системами, которые становятся неотъемлемой частью промышленной безопасности и ключевой технологией сервисов умного города. В будущем данный принцип может распространиться и на другие области, где применяется машинное обучение, например — анализ аудиозаписей.
Подробнее о разработанной в «Криптоните» комбинированной методике реидентификации читайте в научной статье Hикиты Гaбдyллина и Антoнa Paскoвaлова «Google Coral-based edge computing person reidentification using human parsing combined with analytical method» https://arxiv.org/abs/2209.11024