Всем привет! В предыдущей статье я уже рассказывал о том, как внешние факторы могут влиять на скорость и точность работы систем распознавания лиц на видеопотоках. Сегодня речь пойдет о не менее важных внутренних аспектах — архитектуре системы и правильном выборе и настройке оборудования.
Вначале немного о том, как проводились испытания:
Испытания проводились с ноября 2023 по июль 2024 года в трех городах — Санкт-Петербурге, Москве и Челябинске, что позволило учесть различные климатические условия и сезонные изменения.
Использовались камеры с разными параметрами разрешения и углами обзора, а также проверялась высота установки (2-4 м) и места монтажа (например, опоры светофоров и общественного транспорта).
В общей сложности из ~5 500 лиц прохожих было произведено 1 056 попыток идентификации участников по базе в 528 000 лиц.
(Более подробно об условиях испытаний).
А теперь к результатам:
Внутренние факторы:
1. Пропускная способность сети
Степень влияния — низкая (4 потери на 1056 попытках).
Существующая городская инфраструктура может оказаться не готова к «прокачиванию» основных (лучших по качеству и разрешению) потоков видео с большого количества камер до ЦОД. В итоге мы получаем пропуски кадров и кратковременные зависания видео. Были случаи, когда мы теряли не единичные кадры, а целые проходы людей.
2. Стабильность работы оборудования
Степень влияния — значимая (11 потерь на 1056 попытках).
При передаче потока с камеры до серверов видеоаналитики данные проходят через ряд устройств: саму камеру, POE-коммутатор, свитчи на пути в ЦОД, сервер видеозаписи, сервер видеоаналитики, сервер хранения векторов лиц и сбора результатов идентификации. Все это железо может дать сбой именно в тот момент, когда нужный нам человек окажется в поле зрения камеры и будет смотреть в ее сторону.
3. Разрешение изображения с камеры
Степень влияния — значимая (22 потери на 1056 попытках).
Чем выше разрешение камеры, тем выше соблазн использовать ее для охвата наибольшей территории. Это приводит к тому, что относительный размер лиц становится меньше, добавляются искажения при приближении к краям кадра, а общее качество лиц «проседает». При увеличении разрешения начинает увеличиваться стоимость камеры, а еще добавляются затраты на инфраструктуру доставки потока в ЦОД и дисковое хранилище.
4. Качество матрицы камеры
Степень влияния — высокая (27 потерь на 1056 попытках).
Пока человек движется в поле зрения камеры, система отслеживает его лицо и ищет наилучшее изображение по углам наклона/поворота, размытости, расстоянию между глазами, освещенности и т.д. Анализу подвергаются от 15 до 30 кадров в секунду на протяжении нескольких секунд. Камеры эконом сегмента дают низкое качество изображений с матрицы (шумы и помехи). В итоге такие изображения могут быть отброшены алгоритмами оценки качества, а более подходящих кадров может и не появиться.
К тому же матрицы более дешёвых камер могут раньше прийти в негодность, «подгорев» на солнце, что добавит дополнительные шумы и размытия на изображении, делая камеру бесполезной для распознавания лиц.
5. Производительность серверов видеоаналитики (перегрузка >80%)
Степень влияния — высокая.
Чем выше разрешение потока с камеры, больше людей на видео и больше потоков, поступающих на обработку, тем выше нагрузка на вычислители. Защита от падений при пиковых нагрузках заключается в том, что вместо полного прекращения работы система начинает отбрасывать часть подаваемых на анализ кадров. Это сохраняет ее работоспособность, но может приводить к тому, что удачные ракурсы лиц будут попросту исключены из анализа. В таблице ниже видно, что наращивание числа видеопотоков на сервер в какой-то момент начинает приводить к снижению FPS (числа кадров в секунду) с 25 до 17, а следовательно начинает падать и общее число идентификаций с 235 до 196.
6. Качество эталонных фото в базе
Степень влияния — высокая (31 ложная сработка на 1056 попытках).
Эталонные фотографии в базе с низким качеством, на основе которых строится вектор для распознавания лиц на видео, приводят к большому числу ложных срабатываний.
Как управлять внутренними факторами?
Высокое разрешение изображения с камеры не так важно. Лучше взять специализированную длиннофокусную камеру с меньшим выходным разрешением, но обеспечить крупные лица в кадре. Это сократит потребность в пропускной способности сети, потребность в дисковом пространстве для хранения видео и потребность в серверных мощностях для видеоаналитики.
-
Видео лучше обрабатывать на периферии (непосредственно на перекрёстках в местах установки камер) специализированными edge-устройствами вместо передачи «богатого потока» в ЦОД. Так сокращается риск потерь идентификаций из-за сбоев при передаче данных, сокращаются затраты на строительство и содержание линий связи и коммутационного оборудования, а также на хранение видео в ЦОД.
Следите за качеством эталонных фото в базе, иначе повышается вероятность ложных идентификаций или пропусков.
-
У спецслужб нет ресурса на отработку ложных идентификаций, поэтому принцип «не распознали на этой камере, распознаем на другой» позволяет повысить порог уверенности идентификации и, таким образом, сократить количество ложных сработок и не дискредитировать систему. Рекомендованный порог уверенности идентификации устанавливается так, чтобы сократить количество ложных сработок на базах в более 500 000 лиц. Нужно оценить, какое количество людей будет проходить перед камерой в сутки, и решить, на какое количество ложных сработок будут готовы отреагировать пользователи (охрана, спецслужбы). Воспользовавшись графиком соотношения FAR/FRR (Вероятность ложной идентификации постороннего / Вероятность ложного пропуска искомого), можно выбрать оптимальный порог. Например, в нашей системе этот порог составляет 87,6%
Заключение
Для того чтобы выжать максимум из системы распознавания лиц, необходимо комплексно подходить к выбору и настройке всех компонентов, включая камеры, сервер видеоаналитики и сервера хранения данных.
Надеюсь, что результаты и материалы исследования помогут интеграторам систем видеонаблюдения с распознаванием лиц избежать ненужных ошибок при проектировании, монтаже и эксплуатации таких систем.
Комментарии (5)
mahakala
13.01.2025 07:35Не мог бы автор любезно ответить на следующие вопросы:
Безопасна ли для прав граждан данная технология?
Какими законами/подзаконными актами регламентируется данная технология?
Давали ли свое согласие вышеупомянутые 528000 человек для использования фотографий своих лиц в этой технологии?
Давали ли свое согласие вышеупомянутые 5500 человек для использования фотографий своих лиц в этой технологии?
Хотел бы автор применения данной технологии к себе, к членам своей семьи, близким и друзьям?
JBFW
13.01.2025 07:35Вот так сидит человек, решает интересную техническую задачу, делает доброе дело, как он считает.
А потом происходит что-то.
Ну, скажем, "пандемия", и волевое решение руководства "гуляем по расписанию, ваш талончик на следуюшую неделю с 2 до 3 ночи", но вам нужно именно сейчас и по делу, а ваша же система, которую вы тщательно настроили, предательски записывает совершение вами "преступления"
Frady_Priva
13.01.2025 07:35Стоит оглянуться и посмотреть в каком мире мы живём, наши данные уже везде, к сожалению. Конфиденциальности уже нет
Tyusha
13.01.2025 07:35У меня к ограничений в пандемию гораздо меньше вопросов, чем к другим проявлениям нашего государства.
Rive
К слову, задача распознавания лиц выдала в итоге настолько быстродействующие алгоритмы их поиска на изображениях, что их используют как очень дешёвую компоненту детализатора лиц в процессе генерации картинок (даже в комиксовом и аниме стиле).