Всем привет! В предыдущей статье я уже рассказывал о том, как внешние факторы могут влиять на скорость и точность работы систем распознавания лиц на видеопотоках. Сегодня речь пойдет о не менее важных внутренних аспектах — архитектуре системы и правильном выборе и настройке оборудования.

Вначале немного о том, как проводились испытания:

  • Испытания проводились с ноября 2023 по июль 2024 года в трех городах — Санкт-Петербурге, Москве и Челябинске, что позволило учесть различные климатические условия и сезонные изменения.

  • Использовались камеры с разными параметрами разрешения и углами обзора, а также проверялась высота установки (2-4 м) и места монтажа (например, опоры светофоров и общественного транспорта).

  • В общей сложности из ~5 500 лиц прохожих было произведено 1 056 попыток идентификации участников по базе в 528 000 лиц.
    (Более подробно об условиях испытаний).

А теперь к результатам:

Внутренние факторы:

1. Пропускная способность сети

Степень влияниянизкая (4 потери на 1056 попытках).

Существующая городская инфраструктура может оказаться не готова к «прокачиванию»‎ основных (лучших по качеству и разрешению) потоков видео с большого количества камер до ЦОД. В итоге мы получаем пропуски кадров и кратковременные зависания видео. Были случаи, когда мы теряли не единичные кадры, а целые проходы людей.

2. Стабильность работы оборудования

Степень влияниязначимая (11 потерь на 1056 попытках).

При передаче потока с камеры до серверов видеоаналитики данные проходят через ряд устройств: саму камеру, POE-коммутатор, свитчи на пути в ЦОД, сервер видеозаписи, сервер видеоаналитики, сервер хранения векторов лиц и сбора результатов идентификации. Все это железо может дать сбой именно в тот момент, когда нужный нам человек окажется в поле зрения камеры и будет смотреть в ее сторону.

Пример изображения с камеры во время сбоев оборудования
Пример изображения с камеры во время сбоев оборудования

3. Разрешение изображения с камеры

Степень влияниязначимая (22 потери на 1056 попытках).

Чем выше разрешение камеры, тем выше соблазн использовать ее для охвата наибольшей территории. Это приводит к тому, что относительный размер лиц становится меньше, добавляются искажения при приближении к краям кадра, а общее качество лиц «проседает». При увеличении разрешения начинает увеличиваться стоимость камеры, а еще добавляются затраты на инфраструктуру доставки потока в ЦОД и дисковое хранилище.

Изображения с 2K и FullHD камер
Изображения с 2K и FullHD камер

4. Качество матрицы камеры

Степень влияниявысокая (27 потерь на 1056 попытках).

Пока человек движется в поле зрения камеры, система отслеживает его лицо и ищет наилучшее изображение по углам наклона/поворота, размытости, расстоянию между глазами, освещенности и т.д. Анализу подвергаются от 15 до 30 кадров в секунду на протяжении нескольких секунд. Камеры эконом сегмента дают низкое качество изображений с матрицы (шумы и помехи). В итоге такие изображения могут быть отброшены алгоритмами оценки качества, а более подходящих кадров может и не появиться.

Сравнение изображений с камер с низким и высоким качеством матрицы
Сравнение изображений с камер с низким и высоким качеством матрицы

К тому же матрицы более дешёвых камер могут раньше прийти в негодность, «подгорев» на солнце, что добавит дополнительные шумы и размытия на изображении, делая камеру бесполезной для распознавания лиц.

Пример изображения с дешёвой камеры, находящейся под прямым воздействием солнечных лучей
Пример изображения с дешёвой камеры, находящейся под прямым воздействием солнечных лучей

5. Производительность серверов видеоаналитики (перегрузка >80%)

Степень влияниявысокая.

Чем выше разрешение потока с камеры, больше людей на видео и больше потоков, поступающих на обработку, тем выше нагрузка на вычислители. Защита от падений при пиковых нагрузках заключается в том, что вместо полного прекращения работы система начинает отбрасывать часть подаваемых на анализ кадров. Это сохраняет ее работоспособность, но может приводить к тому, что удачные ракурсы лиц будут попросту исключены из анализа. В таблице ниже видно, что наращивание числа видеопотоков на сервер в какой-то момент начинает приводить к снижению FPS (числа кадров в секунду) с 25 до 17, а следовательно начинает падать и общее число идентификаций с 235 до 196.

Результаты нагрузочного тестирования
Результаты нагрузочного тестирования

6. Качество эталонных фото в базе

Степень влияниявысокая (31 ложная сработка на 1056 попытках).

Эталонные фотографии в базе с низким качеством, на основе которых строится вектор для распознавания лиц на видео, приводят к большому числу ложных срабатываний.

Пример изображения из базы низкого качества
Пример изображения из базы низкого качества

Как управлять внутренними факторами?

  1. Высокое разрешение изображения с камеры не так важно. Лучше взять специализированную длиннофокусную камеру с меньшим выходным разрешением, но обеспечить крупные лица в кадре. Это сократит потребность в пропускной способности сети, потребность в дисковом пространстве для хранения видео и потребность в серверных мощностях для видеоаналитики.

  2. Видео лучше обрабатывать на периферии (непосредственно на перекрёстках в местах установки камер) специализированными edge-устройствами вместо передачи «богатого потока» в ЦОД. Так сокращается риск потерь идентификаций из-за сбоев при передаче данных, сокращаются затраты на строительство и содержание линий связи и коммутационного оборудования, а также на хранение видео в ЦОД.

  3. Следите за качеством эталонных фото в базе, иначе повышается вероятность ложных идентификаций или пропусков.

  4. У спецслужб нет ресурса на отработку ложных идентификаций, поэтому принцип «‎не распознали на этой камере, распознаем на другой» позволяет повысить порог уверенности идентификации и, таким образом, сократить количество ложных сработок и не дискредитировать систему. Рекомендованный порог уверенности идентификации устанавливается так, чтобы сократить количество ложных сработок на базах в более 500 000 лиц. Нужно оценить, какое количество людей будет проходить перед камерой в сутки, и решить, на какое количество ложных сработок будут готовы отреагировать пользователи (охрана, спецслужбы). Воспользовавшись графиком соотношения FAR/FRR (Вероятность ложной идентификации постороннего / Вероятность ложного пропуска искомого), можно выбрать оптимальный порог. Например, в нашей системе этот порог составляет 87,6%

Заключение

Для того чтобы выжать максимум из системы распознавания лиц, необходимо комплексно подходить к выбору и настройке всех компонентов, включая камеры, сервер видеоаналитики и сервера хранения данных.

Надеюсь, что результаты и материалы исследования помогут интеграторам систем видеонаблюдения с распознаванием лиц избежать ненужных ошибок при проектировании, монтаже и эксплуатации таких систем.

Комментарии (5)


  1. Rive
    13.01.2025 07:35

    К слову, задача распознавания лиц выдала в итоге настолько быстродействующие алгоритмы их поиска на изображениях, что их используют как очень дешёвую компоненту детализатора лиц в процессе генерации картинок (даже в комиксовом и аниме стиле).


  1. mahakala
    13.01.2025 07:35

    Не мог бы автор любезно ответить на следующие вопросы:

    1. Безопасна ли для прав граждан данная технология?

    2. Какими законами/подзаконными актами регламентируется данная технология?

    3. Давали ли свое согласие вышеупомянутые 528000 человек для использования фотографий своих лиц в этой технологии?

    4. Давали ли свое согласие вышеупомянутые 5500 человек для использования фотографий своих лиц в этой технологии?

    5. Хотел бы автор применения данной технологии к себе, к членам своей семьи, близким и друзьям?


  1. JBFW
    13.01.2025 07:35

    Вот так сидит человек, решает интересную техническую задачу, делает доброе дело, как он считает.

    А потом происходит что-то.

    Ну, скажем, "пандемия", и волевое решение руководства "гуляем по расписанию, ваш талончик на следуюшую неделю с 2 до 3 ночи", но вам нужно именно сейчас и по делу, а ваша же система, которую вы тщательно настроили, предательски записывает совершение вами "преступления"


    1. Frady_Priva
      13.01.2025 07:35

      Стоит оглянуться и посмотреть в каком мире мы живём, наши данные уже везде, к сожалению. Конфиденциальности уже нет


    1. Tyusha
      13.01.2025 07:35

      У меня к ограничений в пандемию гораздо меньше вопросов, чем к другим проявлениям нашего государства.