Технология машинного обучения, нейросети - все это стало уже давно привычным во многих отраслях науки, технологий, медицины и других сфер. В том, что они могут быть очень полезными, нет никаких сомнений. Но есть и обратная сторона медали - использование возможностей современных технологий для обмана.
Если раньше киберпреступники массово рассылали фишинговые письма, то сейчас уже известны случаи, когда они же пытаются подделать голос руководителя компании для достижения своих целей. Мы уже писали о трендах в киберзащите, связанных с искусственным интеллектом, и проблема фейковых голосов и лиц - одна из них. Подробнее - под катом.
Что там с имитацией голоса?
Технологии достигли того уровня, когда обычный человек, да даже и специалист по IT, не в состоянии отличить компьютерный голос ИИ от голоса человека. Паузы, интервалы, даже покашливание и интонации - все это синтезирует компьютер.
Более того, сейчас без проблем можно синтезировать голос конкретного человека, будь то актер, политик или директор компании. В СМИ уже публиковались истории о мошенниках, которые использовали сгенерированный нейросетью голос для того, чтобы заставить сотрудника атакуемой организации выполнить необходимые действия. Так, в марте 2019 года менеджеру одной из британских компаний позвонил "руководитель", который попросил срочно перевести несколько сотен тысяч евро одной из компаний в другой стране. Сотрудник без всяких проверок выполнил перевод, поскольку, по его словам, голос был очень похож - интонация, произношение и все прочее.
Такой синтезированный голос может обойти без особых усилий биометрическую систему идентификации на базе распознавания голосов. Такие системы уже работают, они есть, например, в инфраструктуре банковского холдинга JP Morgan Chase и британском банке HSBC. Вводят подобные системы и в России.
Более того, защищать своих пользователей при помощи голосовой биометрии пытаются и некоторые мессенджеры, включая китайский WeChat. Естественно, угроза затрагивает и массу IoT-устройств с функцией управления голосом, включая Google Home, Alexa, корпоративные системы и все прочее.
К слову, ситуации, подобные той, что была описана выше, повторяться будут не слишком часто. Дело в том, что реализовать подобный сценарий не так просто технически. Для начала нужно получить качественный образец голоса человека, которого собираются копировать. Затем нужна хорошая система синтеза речи, способная справиться с копированием интонации и т.п. Ну и третий шаг - нужно определиться с тем человеком, которому будет звонить робот, подделывающий голос оригинала.
Но если необходимые возможности и инструменты есть, то обмануть человека будет несложно. Даже системы биометрической идентификации с разными защитными функциями, которые помогают распознать оригинал и идентифицировать подделку, не справляются с результатом работы современных нейросетей.
Так, исследователи взяли общедоступные датасеты, это VCTK, LibriSpeech и SpeechAccent, и воспользовались этими данными для обучения нейросети при помощи таких алгоритмов, как SV2TTS и AutoVC. "Жертвами" выступали такие системы распознавания речи, как Resemblyzer и Microsoft Azure. В ходе эксперимента и ту и другую системы удалось обмануть. Успех составил от 50% до 100%.
С цифровыми ассистентами все оказалось еще проще - обмануть ту же Alexa удалось без труда. Добровольцы, которые решили принять участие в эксперименте, при помощи синтезированных образцов собственного голоса смогли обмануть помощника в 100% случаев. С WeChat тоже все получилось - здесь в свой аккаунт смогли войти 9 из 14 участников эксперимента.
Хорошо, а насколько сложно создать цифровую копию лица?
Речь идет все о тех же биометрических системах защиты. В фильмах нам часто показывают, как какая-либо электронная система пропускает одного человека, лицо которого внесено в базу, и не пропускает второго, чьих данных в базе нет. На практике оказалось, что можно обмануть машину, сгенерировав цифровое лицо.
Если учесть то, что функции аутентификации вроде FaceID сейчас становятся все более распространенными, то угроза кажется уже не столь призрачной. Кроме всего прочего, идентификацию при помощи лица используют государственные и частные службы, которые следят за общественной безопасностью.
В Китае по лицу идентифицируют граждан. И если представить себе, что лицо обычного гражданина удалось использовать для криминальных целей, то угроза тоже становится все более явной. Ведь если пройтись с "чужим лицом" по улице под камерами видеонаблюдения с системой распознавания, нарушая закон, "владельцу" лица останется лишь безуспешно доказывать, что он не верблюд.
Обмануть системы распознавания лица не так просто, как голосовые системы идентификации. Но все же можно. Это удалось, в частности, экспертам из университета Тель-Авива. Команда ученых разработала специализированную нейронную сеть, которая занималась исключительно генерированием "лиц-отмычек", если так можно выразиться. В качестве базы использовались не добровольцы, а лица из хранилища Labeled Faces in the Wild (LFW) Университета Массачусетса, содержащее более 13 тыс. изображений лиц.
Из этой базы были отобраны лица, по которым нейросеть составила своеобразные "отмычки". Речь идет о некоем усредненном лице, которое можно использовать для идентификации большинства людей. Насколько можно понять, у исследователей многое получилось. Во всяком случае, при тестировании трех систем распознавания лиц, Dlib, FaceNet и SphereFace, было много положительных срабатываний. Статистика оказалась следующей: Dlib – 63,92%, FaceNet – 43,82%, SphereFace – 44,15%.
В целом, становится понятно, что экспертам по информационной безопасности необходимо разрабатывать новые методы защиты, которые помогут противостоять новым угрозам.
Комментарии (8)
Alexey2005
03.02.2022 21:04Как минимум подделка голоса в российских реалиях неактуальна — все эти нейронки тренированы только на англоязычной речи. Очень сомневаюсь, что в ближайшие пять лет появится качественный русскоязычный синтезатор, способный подделать любой голос по короткому сэмплу.
corvair
04.02.2022 07:58Да по моему уже есть системы, способные в частности "говорить" голосом Путина. VeraVoise например. Вообще вся эта индустрия дипфейков вызывает только тревогу, риск нелегитимного применения достаточно велик, при этом порог входа снижается. В соцсетях и мессенджерах очень часто можно встретить переозвученные ролики самого разного качества, часто их используют для некорректной рекламы, например выступления деятелей науки, обычно медицины, с переозвучкой и заменой задника в целях мошенничества. Обычно такая реклама нацелена на пожилых и в целом на доверчивый контингент, поэтому с губами или не заморачиваются или скрывают их простым блюрингом всей картинки. Но например для манипуляций общественным мнением можно заморочится и с Lip sync, оно того стоит :).
usv_usv
04.02.2022 06:16+4Вывод: образцы голоса и изображения лица не могут быть средством аутентификации пользователей в банковской сфере и т.д.
snakers4
04.02.2022 11:51Очередная статья от копирайтера на Хабре. Мы на эту тему написали в разделе нашей недавней статьи про синтез речи, искать по "Существует ли массовая опасность со стороны "ИИ".
TLDR — для массового пользователя атака будет скорее всего "тупая" просто по предзаписанным фразам другого человека (пример — разводят бабушку якобы сын просит перевести деньги, попал в беду, запись голоса не сына, а какого-то левого чувака.
Но разовую дорогостоющую диверсию, если есть "много денег", провести вполне реально даже по качественной записи 1 телефонного разговора.
wrewolf
О чём эта статья? Зачем это на хабре? Выглядит как текст скопированный из произвольной взятой газеты....