Уровни зрелости технологий компьютерного зрения
Уровни зрелости технологий компьютерного зрения

Привет, Хабр! Меня зовут Татьяна Дешкина, я заместитель директора по развитию продуктов VisionLabs. Мы создаем системы распознавания и защиту этих систем распознавания (в том числе и антифрод), у нас накопился опыт, которым мы хотим поделиться.

В этой статье я на примере нескольких кейсов наших клиентов расскажу, как в банках и других финансовых организациях используют компьютерное зрение (англ. computer vision, CV) и чем оно полезно для конечных пользователей. Здесь не будет хардкорных технических подробностей — материал в первую очередь для тех, кто сталкивается с технологиями компьютерного зрения в повседневной жизни и хочет больше о них узнать.

Начнем с определений и теории

Что такое компьютерное зрение? Это раздел искусственного интеллекта, который решает задачу классификации и отвечает за распознавание объектов, живых существ, ситуаций, символов, всего того, что имеет визуальный облик. Точность технологии зависит от  качества обучения нейросетей, которые и выполняют основную работу. А еще от того, насколько правильно составлен пайплайн, то есть процесс распознавания.

В широком смысле слова CV еще не достигло пика зрелости. Здесь можно провести аналогию с ИИ: есть ИИ-решения для конкретных задач в определенных направлениях, но нет «общего» искусственного интеллекта, который мог бы принимать решения комплексно, как и человек.

График зрелости технологий: красным выделены направления, связанные с распознаванием.
График зрелости технологий: красным выделены направления, связанные с распознаванием.

У CV тоже сейчас нет «общего» компьютерного зрения. На графике выше показаны успехи в отдельных направлениях. Например, в распознавании символов и объектов. А вот распознавания лиц, силуэтов и прочих атрибутов людей на этом графике нет. Почему? На текущий момент human-centric распознавание применяется уже достаточно широко, особенно в банковской сфере.

Чаще всего в банках и финансовых сервисах используют распознавание лиц и антифрод

С прикладной точки зрения технологии распознавания людей можно условно поделить на две категории:

  • Распознавание лиц и всего связанного с ним: пола, возраста, наличия эмоций, позиции головы и других атрибутов лица и качества изображения. В этом контексте необходимо упомянуть технологии, которые защищают систему распознавания лиц от попадания в нее фейковых изображений. Liveness определяет живой или нет объект перед камерой. Детектор deepfake защищает от попадания в систему распознавания лиц сгенерированных изображений.

  • Технологии распознавания силуэтов и их атрибутов. Здесь можно выделить распознавание и определение типа и цвета одежды, аксессуаров (и их наличия), пола и возраста.

Технологии работы с силуэтами не ограничиваются распознаванием: на практике для силуэтов используется мультикамерный трекинг, когда можно строить траекторию перемещения людей.

Наконец, есть целый класс технологий и задач, которые решаются с помощью видеоаналитики. Среди них — ситуационный анализ, когда система автоматически оповещает оператора о потенциальных опасностях. Еще можно анализировать происходящее в помещении банка: фиксировать очередь у банкомата, определять местонахождение сотрудника и прочие детали.

В системах распознавания кадр с лицом проходит несколько проверок

Разберем распознавание лиц на практике. В практических кейсах применения у нас есть как добросовестные клиенты, так и злоумышленники. Поговорим о первых.

Представим ситуацию, когда клиент пользуется системой распознавания лиц в каком-либо процессе. Пайплайн выглядит так: человек смотрит в камеру, система выбирает лучший кадр и отправляет его дальше по пайплайну. Затем выполняется проверка качества кадра и оцениваются атрибуты лица: выражение, эмоции, открытые или нет у человека глаза и так далее. В это же время кадр проходит проверку на Liveness.

Когда все проверки успешно пройдены, кадр отправляется в систему распознавания лиц. Здесь из него извлекается дескриптор, то есть математическое описание лица на кадре. Он сравнивается с дескриптором, ранее извлеченным из эталонного фото и лежащим в базе данных. Если скор матчинга высокий, система подтверждает личность клиента и одобряет проведение транзакции.

Для каждого сценария атаки предусмотрен набор средств защиты

Теперь взглянем, что происходит, если с системой планирует взаимодействовать недобросовестный пользователь или злоумышленник. Он может пойти по одному из двух сценариев.

Первый — атака на биометрическое представление или предъявление. То есть когда пользователь в момент съемки пытается показать фейк — например, распечатанное фото, бумажную или 3D-маску, провести реплей-атаку. Возможные манипуляции ограничены лишь фантазией злоумышленника.

Процесс начинается аналогично: сначала выбирается лучший кадр, который должен отправиться в систему распознавания лиц. Но этого не происходит: технология Liveness определяет, что на снимке фейк, а не живой человек, и фотография отклоняется. В результате кадр даже не доходит до системы распознавания лиц.

Второй — DeepFake-атака. Есть много вариантов такой атаки: мы возьмем пример face swap. У мошенника должна быть фотография пользователя, за которого он хочет себя выдать.

Видеопоток подменяется на запись, где изображен злоумышленник, накладывают лицо другого пользователя. Такие атаки успешно отбиваются с помощью DeepFake-детектора.

Распознавание силуэтов работает по схожим принципам, но решает другие бизнес-задачи

Рассмотрим пример, когда используются технологии распознавания силуэтов. Есть кадр, на котором детектор определяет силуэт пользователя. В зависимости от кейса могут осуществляться извлечение дескриптор тела и его дальнейший матчинг с базой данных, применяться мультикамерный трекинг.

У технологии большие перспективы в клиентской аналитике. С её помощью можно строить тепловые карты и диаграммы спагетти. По ним удобно понимать, где человек проводит больше времени в помещении и оптимизировать пространство.

Распознавание силуэтов и видеоаналитика позволяют оценить, что происходит в кадре и выделить в видеопотоке потенциально опасные или нежелательные события. Например, можно определить очередь, попадание человека в закрытую зону, драки, наличие оружия и другие ситуации. Это делается с помощью детекторов, обученных выявлять такие события. Оповещение из  системы видеоаналитики уже уходят оператору или охране.

Технологии CV — это уже часть нашей повседневной жизни

Условно, все кейсы можно поделить на две категории:

  • Онлайн. Классический кейс оказания удалённых услуг, когда нужно заонбордить клиента или подтвердить какую-то транзакцию.

  • Офлайн. Включает разные сценарии: от платежа по лицу до phygital-офиса и электронных очередей.

Онлайн-банкинг и удаленное подтверждение транзакции

Здесь используются технологии, о которых мы говорили раньше. Клиент заходит в сервис или мобильное приложение и хочет перевести деньги. Он может подтвердить транзакцию при помощи биометрии лица. В этом случае выполняется пайплайн распознавания лиц, включающий Liveness. Если мы работаем с видеопотоком, то реализуется еще и DeepFake-проверка. Если перед нами настоящий человек, кадр будет допущен до системы распознавания лиц, где пользователь будет проходить верификацию. Если она выполнена успешно, то транзакция одобряется.

На практике с помощью такой последовательности действий банки справляются с потоком мошенников. Один из наших клиентов за счет указанных выше технологий предотвратил более 10 000 мошеннических кредитных заявок, что сберегло ему 4 млрд рублей.

Теперь поговорим про офлайн-кейсы. Их довольно много, но возьмем четыре основных.

Платеж по лицу

Они внедрены повсеместно — в ТСП, транспорте, ритейле. Бизнесу эта технология полезна: платеж по биометрии лица платеж проходит в 3 раза быстрее, чем картой.

Процедура следующая: пользователь остановился напротив кассы самообслуживания. Его лицо детектируется, проверяется на Liveness, извлекается дескриптор. Если матчинг успешен,  проходит платеж. Все это занимает не более 3 секунд.

Phygital-офис

Это гибридный формат обслуживания, когда физическое пространство комбинируется с цифровыми услугами. Человек заходит в отделение, система его фиксирует и распознает. Менеджер банка получает уведомление, что пришел клиент и ему могут быть интересны какие-то услуги. Электронная очередь в этот момент направляет посетителя в нужное окно. Человеку не приходится ждать, достигается эффект мгновенного обслуживания.

Цифровой ID

В этом случае вместо (или вместе) с документом используется лицо. Так можно получить обслуживание без паспорта или дополнительно подтвердить свои данные. Технология существенно снижает уровень фрода и помогает избежать ситуаций с украденными паспортами, когда в документ вклеивают чужое фото.

К слову, цифровой ID может использоваться не только для клиентов, но и для сотрудников. В этом случае появляется дополнительный эффект от того, что авторизация происходит по биометрии. Еще это позволяет сократить фрод с точки зрения кражи логинов и паролей с последующим сливом клиентских данных.

Видеоаналитика

Эти кейсы можно разделить на две группы: получение дополнительной аналитики и обеспечение безопасности.

Например, в случае ритейла можно полностью оцифровать клиентский путь с момента входа человека в магазин вплоть до того, как он его покинет. Мультикамерным трекингом можно строить треки и тепловые карты, определять, сколько времени клиент ждал получение сервиса. А еще появляется возможность фиксировать, как сотрудники реагируют на клиентов и насколько оперативно выполняют обязанности.

С точки зрения безопасности, видеоаналитика позволяет отслеживать потенциально опасные ситуации (например, драки). Кроме того, технология не дает мошенникам получить доступ к кассовым зонам или зонам хранения, где не должно быть посторонних.

Что касается практики, приведу кейс одного из банков с оцифровкой 100% клиентского пути. Более того, распознавались еще и эмоции человека, так что появилась возможность строить индекс удовлетворенности клиента в реальном времени. Это добавило данных для оптимизации процессов и клиентского пути.

Что важно знать про технологии распознавания лиц

Технологии компьютерного зрения развиваются давно: VisionLabs, например, на рынке уже 12 лет. Сейчас мы и еще несколько других лучших в мире поставщиков решений сражаемся за 4–5 знаки после запятой (точность 99,999ХХ). Такая зрелость позволяет системам CV:

  • Быть точными. Вероятность, что вас примут за другого или не верифицируют практически нулевая — 0,0005% или около того.

  • Быть безопасными. В России эта сфера сильно регулируется (572 ФЗ): к компаниям-операторам БПД применяются самые суровые стандарты защиты данных. Liveness и DeepFake-детекторы активно работают и успешно отражают атаки. Они стоят в проде во многих странах и в системах с разным уровнем риска.

На этом все. Если у вас остались вопросы о применении компьютерного зрения в финансовой сфере — задавайте их в комментариях.

Комментарии (0)