Навык видеть и быстро узнавать лица – это сверхспособность. Не нужно тратить время на анализ, изучать морщинки, складки и овалы. Распознавание лица происходит мгновенно и без усилий. Это так легко, что мы не отдаем себе отчет в том, как нам это удается.
Задумайтесь, насколько разные лица похожи друг на друга – два глаза, рот, нос, по бокам торчат уши, каждый раз в одном и том же порядке (чаще всего). Невероятно, что мы проводим анализ объекта с такой легкостью.
Мы «запрограммированы» распознавать лица с рождения, но сейчас люди добились большего – научили машину этому навыку. Как повлияет на жизнь общества повсеместное внедрение систем распознавания и идентификации персон?
Парейдолия: автоматический поиск лиц
Люди в «автоматическом» режиме способных различать знакомые образы на любых поверхностях. Всего три архитектурных элемента здания воспринимаются как лик удивленной уточки. Это пример парейдолии.
Слово парейдолия происходит от греческих слов para (para – рядом, около, отклонение от чего-либо) и eidolon – изображение. Так называется оптическая иллюзия, восприятие изображения или значения там, где их на самом деле нет. Например, лицо на стволе дерева или фигуры животных в облаках – это парейдолия.
Больше таких фотографий можно найти на сайте thingswithfaces.com
Лица людей и морды животных мы видим в любой геометрической фигуре. На этом принципе построена вся культура эмодзи. :-)
Явление парейдолии легко перевести на язык алгоритмов. Художники Shinseungback Kimyonghun фотографировали облака, на миг сливающиеся в человеческие лица, используя скрипт с библиотекой OpenCV.
Иллюзия Тэтчер: системные биологические ошибки
Существует биологический баг, который показывает большую значимость навыка распознавания. Большинство окружающих вас предметов – стул, стол, компьютер легко увидеть и правильно идентифицировать под любым углом зрения. Только не лица.
Перевернутое лицо рождает в головном мозге сбой, называемый эффектом (иллюзией) Тэтчер. Явление описывает состояние, при котором трудно обнаружить локальные изменения на перевернутом портретном фото.
Перевернем фото Маргарет Тэтчер и посмотрим на результат.
Первое фото кажется нормальным, но если его перевернуть, неправильное положение глаз и рта сразу бросается в глаза. Человек и искусственная нейросеть воспринимают образы по-разному. Удивительно, что «нейросеть» между наших ушей так легко обмануть.
Иллюзия Тэтчер демонстрирует некоторые основные механизмы, с помощью которых наш мозг обрабатывает информацию. Мозг считывает совокупность отдельных элементов: пара глаз, нос, рот, уши. Кроме индивидуальных особенностей черт лица, принимается во внимание их связь между собой и расположение. То есть лицо воспринимается как цельная система.
Поэтому, когда нам показывают перевернутое лицо, мозгу сложнее оценить образ цельно — информация «собирается» отдельно по каждому элементу: глаза на месте, рот похож на рот. Однако как только нам показывают правильное лицо, внезапно снова подключается восприятие единой системы и начинаются проблемы: становится ясно, что привычные черты связаны между собой непривычным образом.
Почему это важно? Человеческий мозг способен распознать малейшие различия в чертах лица благодаря цельности восприятия. Участок коры головного мозга узнает лицо и определяет направление взгляда, миндалевидное тело и островковая доля анализируют выражение лица, а участок в префронтальной зоне лобной доли и система мозга, отвечающая за чувство удовольствия, оценивают его красоту.
Баг как фича: лица Чернова
(с)
Особенность человеческого восприятия используется для анализа агрегированных многомерных данных с помощью «лиц». Американский математик Герман Чернов в 1973 году изложил концепцию использования «лиц» для выявления характерных зависимостей и исследования сложных взаимосвязей между несколькими переменными.
Данные по Чернову отражаются в виде лиц-пиктограмм, где относительные значения выбранных переменных представлены как формы и размеры отдельных черт: длина носа, угол между бровями, ширина лица – всего до 36 переменных. Таким образом, наблюдатель может идентифицировать уникальные для каждой конфигурации значений наглядные характеристики объектов.
Беглый взгляд на составленную из лиц диаграмму позволит быстро определить, значимо ли отличаются (совпадают) характеристики профилей. При детальном обзоре черт лиц становится понятно, в каких признаках (каждое черта лица – отдельный признак исходного набора данных) сходство, а в чем заключается различие. Например, на иллюстрации выше легко заметить разницу между странами по грустным и веселым смайликам.
Зачем машине ваше лицо
Навык быстрого распознавания лиц помогает забрать своего ребенка из детского сада, выбрать партнера, правильно и уместно выражать эмоции. Но что происходит, когда человек передает эту способность искусственной нейросети?
Идея может вызывать отторжение. Не все готовы с легкостью принять технологию, которая хранит данные, наблюдает за передвижением, анализирует покупки и эмоции. Переход от простого видеонаблюдения к персонализированной видеоаналитике влечет за собой значительный рост ответственности.
Сегодня такие алгоритмы как DeepFace определяют сходства лиц с точностью выше, чем у людей. Алгоритм от Nvidia сам создает лица несуществующих людей за несколько секунд. Лица на коллаже выше сгенерированы нейросетью StyleGAN, обучавшейся на дата-сете из 70 000 снимков. Выглядят они пугающе реалистично.
Демонстрация работы алгоритма SearchFace
Первое время алгоритм распознавания лиц Facebook вызывал повышенную настороженность, но затем все привыкли (или удалились из соцсети). Сервис FindFace для поиска людей по фотографии во ВКонтакте получил неоднозначные отклики и использовался для травли, но закрытие аналогичного проекта SearchFace уже вызвало негативную реакцию у пользователей – в конце концов, если данные доступны, то пусть они будут открыты для всех.
Торговые сети устанавливают технологию распознавания лиц для предотвращения краж, сбора данных о возрасте, поле и даже эмоциях покупателей. В конце концов, цель состоит в том, чтобы улучшить качество обслуживания покупателей и заработать на этом. Когда клиенты осознают, что система выгодна лично им, многие будут согласны на внедрение новых технологий.
Учитывая растущее число случаев «кражи личности» – мошенничества с кредитными картами и личными данными, потребители предпочтут систему, которая в нужный момент. корректно их идентифицирует.
В настоящее время алгоритмы помогают решить проблемы плохой освещенности кадра, низкого разрешения и маскировки — такой, как очки, парики и многодневная щетина. Системы работают с потрясающей скоростью и сопоставляют лицо с базой данных миллионов человек всего за секунду.
Некоторые магазины в США предлагают подозреваемым в краже выбор: позволить себя сфотографировать или получить официальное обвинение в преступлении. Вор обретает свободу вместе с запретом на посещение магазина, а его фото официально попадает в базу данных. Файлы, содержащие изображения людей, зашифрованы и доступны только владельцу системы.
Кто получает прибыль от распознавания
Большинство магазинов уже установили камеры видеонаблюдения. Для видеоаналитики апдейт железа не требуется – достаточно подключить облачный сервис. А с сервисом видеоаналитики Ivideon порог входа практически отсутствует. Стоимость решения от 1 700 рублей за камеру открывает любому предпринимателю доступ к ПО.
Главный мотив ритейлеров использовать технологию распознавания лиц – предотвращение воровства. Согласно данным ассоциации розничной торговли National Retail Foundation только в США около 1,33% всех товаров в 2017 году было потеряно из-за краж – ни много ни мало ущерб на 46,8 млрд долларов.
Технологии распознавания лиц уменьшают количество краж в магазинах более чем на 30%.
Часто на сумму ущерба влияют второстепенные факторы: халатность сотрудников, плохая подготовка службы безопасности, стремление сэкономить. Эти и другие проблемы должны быть решены с помощью камер и облачных технологий.
Система распознавания лиц облегчает быструю работу с «черными» списками: она сравнивает фотографию клиента с базой данных ненадежных лиц и, при совпадении, отправляет соответствующее предупреждение охранникам.
Аналитический софт значительно усиливает защищенность магазина. Опытный воришка способен замечать «слепые зоны» камер. В таком случае охранник может воспользоваться своим телефоном, чтобы сфотографировать подозреваемого, и затем проверить, находится ли этот человек в базе данных.
Бренды давно используют мобильный маркетинг – отправляют SMS, push-уведомления и показывают таргетированную рекламу. Для традиционной розницы системы распознавания дают те же возможности, что получили онлайн-продавцы с файлами cookie.
Та же платформа, которую используют для выявления воров, помогает продавцам выяснить, какие витрины лучше привлекают покупателей. Система распознавания помогает идентифицировать VIP-клиента прямо у входа в магазин. Воспользовавшись данными из CRM, продавец может быстро сделать клиенту выгодное предложение.
В Международном финансовом центре Сеула камеры на информационных стендах в реальном времени определяют возраст и пол человека, и предлагают рекламу соответственно выявленным параметрам
Информация о клиентах активирует мощный инструмент увеличения продаж и оценки потребностей аудитории. Камеры помогут настроить показ видеообъявлений для конкретного посетителя в зависимости от его пола, возраста и эмоционального состояния, а также станут поставщиками данных для расчета эффективности рекламы.
Вышеперечисленные возможности для ритейлеров часто звучат как надоедливый рекламный шум. Тезисы о «росте прибыли» и «потребностях аудитории» сопровождают любой IT-инструмент на рынке – от ERP до электронного ценника. Есть ли в системах распознавания лиц нечто большее, чем чистый маркетинг про искусственный интеллект и технологии будущего? Ответим на этот вопрос через примеры использования реальных систем в существующих магазинах.
«Работа в поле»: кто в реальных условиях распознает лица
7-Eleven – крупнейшая в мире торговая сеть, объединяющая под управлением Seven-Eleven Japan более 36 000 небольших магазинов в 18 странах. Недавно компания установила программное обеспечение в 11 000 своих магазинов. Технологию распознавания лиц и анализа поведения в торговой сети используют для идентификации держателей карт лояльности, мониторинга трафика клиентов, определения уровня запасов товаров на складах.
Saks – столетняя сеть премиум-магазинов, которая в настоящий момент принадлежит одной из старейших компаний в мире (основана в 1670) Hudson's Bay Company. Видеоаналитика используется в Saks главным образом для предотвращения краж. Программное обеспечение сверяет фотографии подозреваемых в воровстве с базой данных известных магазинных воров. Камеры объединены в сеть, поэтому результаты можно просматривать в штаб-квартире Saks в Нью-Йорке.
По данным Guardian, премиум-магазины и отели в Европе регулярно используют технологию распознавания лиц, отслеживая VIP-персон и знаменитостей для обеспечения им наиболее комфортных условий.
В США сеть бургерных CaliBurger использует технологию распознавания лиц в программе лояльности. Интерактивный киоск «узнаёт» клиентов, запоминает заказы и предлагает любимые блюда, принимает платежи с идентификацией по лицу.
Система устраняет порог входа в бонусную программу для пожилых людей, которым может быть трудно пользоваться мобильными приложением, бонусными баллами и кредитными картами.
Системы распознавания лиц массово используются в Азии, особенно в Китае, где с их помощью принято расплачиваться за продукты питания, снимать наличные в банкомате или даже брать кредиты. Точность распознавания лиц в Китае превосходит возможности человеческого глаза. Связано это в том числе и с масштабным переходом Китая от 2D- к 3D-распознаванию.
В первом случае алгоритмы используют для анализа двухмерные изображения, накопленные в базах данных. 3D-распознавание анализирует реконструированные трехмерные образы и демонстрирует куда более высокую точность. В Китае с помощью сканирования лиц можно делать покупки (например, оплачивать заказы в KFC), совершать платежи и входить в здания.
В Alipay нужно улыбнуться, чтобы платежная система распознавания поняла: перед ней не фотография, а живой человек. Утверждается, что обмануть Alipay невозможно: изменение цвета волос, макияжа, использование парика ничего не меняет. Система использует комплекс отличительных черт, которые учитывают геометрию лица и расположение на нем определенных точек.
Выводы
Масштабы прямых вложений западных компаний и Китая в технологии face recognition огромны. Тем не менее в России реализация подобных проектов — дело времени. Крупные коммерческие компании уже понимают преимущества и экономический эффект. Если рассматривать распознавание лиц как продукт, важно понимать, что в каждом сегменте бизнеса своя специфика, в том числе и ценовая. Чем крупнее предприятие, тем больше камер и модулей аналитики может потребоваться. Решения для крупного бизнеса – это всегда сложные кастомизированные проекты, а кастомизация требует дополнительных средств. Средний и малый бизнес вполне может обойтись одной камерой с подключенным модулем распознавания лиц. В таком случае стоимость решения сопоставима с использованием облачного видеонаблюдения.
Комментарии (3)
dMac
19.03.2019 10:33>>иллюзия Тэтчер не очень работает
Ну как сказать… перевернутая гримаса пугает меньше, в том и иллюзия, ИМХО
mindcaster
Что-то у меня иллюзия Тэтчер не очень работает. Даже не на грубых «подделках», найденных в сети, возникает ощущение, что что-то не так; а про пример в статье и говорить нечего.