Говорят, ещё в советское время на телефонных станциях установили оборудование для прослушки разговоров. Естественно, записать и физически прослушать все разговоры тогда не было возможности, зато эффективно работала технология голосовой идентификации. По образцу голоса конкретного человека система мгновенно срабатывала — на прослушку или запись, с какого бы телефона он ни звонил. Эти технологии доступны и сегодня, вероятно, используются в оперативно-разыскной деятельности. Голос человека уникален, как его отпечатки пальцев.

Благодаря передовым разработкам в области ИИ теперь злоумышленники смогут пустить оперативников по ложному следу. 24 апреля 2017 года канадский стартап Lyrebird анонсировал первый в мире сервис, с помощью которого можно подделать голос любого человека. Для обучения системы достаточно минутного образца.

Сайт Lyrebird объясняет, что на основе минутного образца система «генерирует уникальный ключ», с помощью которого может обработать любую другую речь, придав ей характеристики нужного голоса.

Эту систему можно использовать, чтобы выдать себя за другого человека, то есть для розыгрышей (только не шутите с голосами личностей, которые находятся в федеральном розыске). С этого дня не стоит удивляться, если вам с незнакомого номера звонит мама/бабушка/жена/ваш ребёнок — и говорит странные вещи, просит помочь или перечислить деньги на какой-то счёт. Голосом вашего родственника может говорить кто угодно.

Возможности системы не ограничиваются розыгрышами и социальной инженерией. Например, вы можете разработать собственный уникальный голос — и использовать его в общении, если ваш собственный голос не устраивает по каким-то причинам. Такая услуга будет полезна телефонным операторам, маркетологам, продажникам и другим профессионалам в сферах, где важную роль играют разговоры, общение по телефону. Хотите очаровать девушку, расположить к себе собеседника, добавить себе авторитетности — просто добавьте немного низких частот и бархатистости.

Известно, что голос человека напрямую связан с психологическими чертами личности, эта информация передаётся собеседнику на подсознательном уровне. Так, писклявые, тонкие и визжащие звуки голоса вызывают дискомфортные тревожные ощущения, и такие голоса подсознательно ассоциируются с юностью, энергичностью, неопытностью и незрелостью. С другой стороны, людей с низкими голосами воспринимают как людей самодостаточных, высокоинтеллектуальных и уверенных в себе. Человек с низким голосом интуитивно считается знающим и авторитетным. Этими приёмами пользуются даже имиджмейкеры, когда техническими методами понижают голос политических кандидатов во время телетрансляций, чтобы вызвать большее доверие избирателей женского пола.

В сервисе Lyrebird для использования в своих целях можно выбрать один из тысяч заранее подготовленных наиболее оптимальных голосов — или спроектировать собственное оригинальное звучание. Разработчики гарантируют, что обработка уникальным «ключом» тысячи предложений на их кластерах GPU занимает менее 0,5 секунды.

Технология генерации речи Lyrebird разработана в Монреальском институте алгоритмов обучения (Montreal Institute for Learning Algorithms, MILA) при Монреальском университете (Канада).

В качестве демонстрации технологии разработчики сгенерировали ключи для голосов Дональда Трампа, Барака Обамы и Хиллари Клинтон. В демонстрационном аудиоклипе эти политики обсуждают возможности системы подделки голосов Lyrebird (аудио).

Вот отдельные сгенерированные фразы разными голосами. Одни и те же фразы одинаковый голос произносит с разными интонациями:

Обама 0
Обама 1
Обама 2
Обама 3
Трамп 0
Трамп 1
Трамп 2
Трамп 3
Трамп 4
Трамп 5
Трамп 6
Трамп 7

В демонстрационном плейлисте представлены два десятка голосов с разными характеристиками, как пример того, какие голоса можно сгенерировать на свой вкус.

Сейчас Lyrebird заканчивает разработку API, чтобы сервис реально можно было использовать в своих приложениях. Разработчики говорят, что Lyrebird — первая в мире компания, которая предлагает технологию для точной подделки чужих голосов. В связи с этим на них налагаются определённые этические обязательства. Главным этическим обязательством является повсеместное информирование о возможностях технологии по точной подделке чужого голоса, так что с этого дня — с 24 апреля 2017 года — ни один суд в мире, ни одно оперативно-разыскное мероприятие не должно полагаться на аутентичность голоса конкретного человека. С этого дня голоса перестали быть уникальными, каждый из них можно подделать.

Гражданам, которые заботятся о своей приватности, можно посоветовать быть осторожным с использованием своего голоса — не передавать его по незащищённым каналам и говорить краткими фразами, чтобы злоумышленник не смог собрать достаточно материала для подделки личности.
Поделиться с друзьями
-->

Комментарии (55)


  1. swelf
    25.04.2017 17:02
    +3

    Интонацию, тембр, низкий/высокий голос, может и подделает. А скорость речи, пауза между словами, слова/звуки паразиты? С другой стороны, эти вещи наверно может подделать условный «Галкин», а система подтянет голос.


    1. saboteur_kiev
      25.04.2017 17:11
      +5

      Ну паузы и слова-паразиты может подделать вообще любой, заранее нужный сценарий написать.
      Основная проблема была именно в голосе.

      Правда мне кажется, что что-то похожее я слышал, даже википедия говорит как минимум о четырех продуктах, из которых парочка доступны всем, то есть говорить о «первой» подобной технологии — некорректно.


  1. whiteodmin
    25.04.2017 17:16

    Вас узнают в жэк-е и бросают трубку или бывший(ая) супруг(а) не отвечают на ваши вызовы, а может быть вы коллектор и клиент уже знает ваш голос? То новая услуга специально для вас.


    з.ы: Авторские права на голос?


    1. infrapro
      27.04.2017 11:17

      Авторские права на голос вполне могут появиться если данной технологией начнут пользоваться для локализации фильмов и игр. Представьте себе «настоящие» голоса актеров говорящие по-русски и без акцента. И для разработчиков тех же игр возможно станет проще с локализацией. В общем хороший профит, если отбросить негативную сторону использования подобного сервиса мошенниками


  1. RubyFOX
    25.04.2017 17:35
    +1

    Ну… послушал образцы. Налет компьютерных шумов там явный…


    1. saboteur_kiev
      26.04.2017 14:29
      +1

      Зато Вертера теперь можно имитировать на 100%, а-а-а.


  1. 80386
    25.04.2017 17:43

    О, теперь можно петь, как Роберт Плант?)


    1. impetus
      25.04.2017 19:17

      Йесс! теперь Пеперович действительно сможет напеть как Карузо


    1. Nagg
      25.04.2017 20:44
      +1

      Хочу петь как Фредди Меркури!


    1. SargeT
      28.04.2017 19:56
      +1

      КМК, без длительной подготовки и обучения вряд ли можно повторить его уникальную манеру исполнения :)
      Не ручаюсь за точность цитаты, «годы я тренировался для того, чтобы моё сделать моё пение похожим на то девчачье нытьё, которое вы слышите сейчас»


  1. vyacheslavteplyakov
    25.04.2017 17:45

    А окей гугл умеет же телефоны разблокировать?..
    Телефонные аферисты тоже наверно довольны, теперь «мама я попал в аварию, пришли денег» будет работать ещё лучше.


    1. k0ldbl00d
      25.04.2017 20:50

      Телефонным аферистам сперва понадобится получить образец. Хотя, это не такая уж большая проблема.


      1. Areso
        26.04.2017 09:21

        Достаточно позвонить на телефон с автоответчиком.
        Oh, shi~…
        ушел удалять свой голос со всех автоответчиков


  1. ogostos
    25.04.2017 17:55
    +2

    adobe тоже анонсировала нечто вроде этого.


  1. Contriver
    25.04.2017 17:57

    Заключённые аплодируют стоя!
    Кто первый из присутствующих на хабре запустит голосовой SIP прокси VPN.
    Одним из первых бета тестеров данного сервиса будут мошеннки и телефонные лже-террористы.
    Lyrebird кандидат на блокировку Роскомнадзора, ишь ты чего удумали голос менять — подумал чиновник, прежде чем добавить в бан Lyrebird .


    1. saboteur_kiev
      25.04.2017 18:54

      А это тут причем? Кому не нужен веб-апи, могут совершенно честно купить библиотеку и поставить у себя на локалке.
      Вопрос то не про веб-сервис, а про саму возможность идентификации по голосу.


  1. Noizefan
    25.04.2017 18:48
    +1

    Шумы слишком отчётливо слышно, но с нашим качеством связи в отдалённых местах страны эта технология весьма и весьма юзабельна.


  1. arheops
    25.04.2017 19:06
    +2

    Тоесть неотличимую от живого голоса TTS еще не сделали, а подделку голоса сделали? Не верю. Вышли бы на рынок TTS с этой технологией, порвали бы там всех и быстро бы сделали денег.


    1. sumanai
      25.04.2017 22:40
      +1

      Нужно пропустить голос TTS через этот сервис…


  1. fruit_cake
    25.04.2017 19:06
    +1

    мама я человека сбил перечисли пятьдесят тысяч на этот номер


    1. enstain
      26.04.2017 09:29

      Ладно смс-ки, теперь получается мамке может такой фейковый сынок просто дозвониться и подтвердить, мол, всё так, действительно сбил, давай деньги переводи, не развод

      Тут уже начинается двухфакторная авторизация: «сынок, а мы в каком году на море ездили? а как звали твоего первого питомца»?


      1. 2PAE
        26.04.2017 11:14
        +3

        То что вы описываете, двух этапная авторизация. Двух факторная, к примеру — пришли фото платка, который я положила тебе в карман, сегодня утром.

        Вы должны не только знать информацию, но и обладать чем-то, отдельным от информации.


      1. trapwalker
        26.04.2017 16:20

        Надеюсь нарочно съязвили насчет этих «криптостойких» вопросов. Мне кажется лучше сказать что-то вроде: «Дяде славе позвони, у меня денег на счету нет.» Если в ответ не «Какой еще дядя Слава, мам...», то следует заподозрить неладное.


      1. sumanai
        26.04.2017 16:39

        сынок, а мы в каком году на море ездили

        См. фотки в ВК.
        а как звали твоего первого питомца

        Там же.


      1. ilansk
        27.04.2017 07:54

        Терминатор 101 таким способом обманул Т-1000. Оба терминатора в беседе друг с другом использовали такой способ обмана и оба поняли что поговорили не с людьми. ))))


  1. Owyn
    25.04.2017 20:09
    +1

    > Робошумы

    О каком прорыве вообще идёт речь если они просто немного доработали Microsoft Sam'а, да и так что всё равно слышно только Сэма что не слышно доработок?


  1. mrrouter
    25.04.2017 20:09

    эффективно работала технология голосовой идентификации.

    Эта тема была раскрыта Солженицыным в романе «В круге первом».

    Товарищ Ализар, слово «разыскной» сейчас подвели под общее правило (без ударения пишем «раз-»).


    1. alizar
      25.04.2017 20:11

      Точно, совсем забыл, читал же про это! Спасибо!


  1. AFakeman
    25.04.2017 22:07

    Послушал образцы Трампа, звучит все еще так же роботично, как встронный в систему голос.


  1. GeckoPelt
    25.04.2017 22:29

    И голосом Модеста можно будет?
    https://www.youtube.com/watch?v=wrNBIlmzjyA&t=11s


  1. BalinTomsk
    25.04.2017 23:00
    +2

    ---Lyrebird — первая в мире компания, которая предлагает технологию для точной подделки чужих голосов

    Adobe ананосировал эту возможность еще год назад в своем продукте, презентация есть на youtube, да и на хабре была статья.


  1. Farxial
    26.04.2017 00:48
    +2

    Наконец-то MLP:FiM, аниме и прочие произведения с годной оригинальной озвучкой смогут локализовать без потерь качества. Если сервис будет доступен любому — это здорово (хотя open-source был бы лучше, но итак норм) ^_^

    P.S. Примеры не смотрел и ничего не тестил)


    1. Farxial
      26.04.2017 00:54

      ^ Может, я и поторопился с выводами, судя по комментариям выше v.v


      1. izzholtik
        26.04.2017 14:14

        Качество звука весьма посредственное, фыр. Лучше уж карусель <_<


  1. mbait
    26.04.2017 03:02

    Пока тут обычный стартапизм — громко заявить и ничего не показать. Существует, как минимум, один метод проверить качество скопированного голоса. Нужно, чтобы оба голоса произнесли одинаковую фразу. Затем полученные записи делим на кадры длительностью около 25мс, вычисляем MFCC-коэффициенты и сравниваем с помощью алгоритма DTW. И если для данного алгоритма можно получить какой-то разумный порог, который будет с заданной точностью отделять чужие голоса от своих, то можно будет говорить о прорыве.

    Можно запустить и более простой тест, используя i-vectors и алгоритмы идентификации говорящего. Более простой он в том смысле, что его легче обмануть.

    А так — алгоритмы преобразования речи (изменения пола, тона, и т.д.) существуют очень давно, а органы восприятия человека обманываются очень легко и без алгоритмов.


  1. Kpblc
    26.04.2017 08:08

    Получается голосовую идентификацию, в том числе и банках, скомпрометировали ещё до повсеместного внедрения?
    А шумы допилят со временем.


  1. Idot
    26.04.2017 10:28
    +1

    Благодаря передовым разработкам в области ИИ теперь злоумышленники смогут пустить оперативников по ложному следу

    Ровно наоборот! Это теперь люди в штатском смогут посадить любого за экстремизм и терроризм при помощи аудиозаписи в которой подозреваемый кричит экстремистские высказывания и обсуждает подготовку теракта.


  1. veydlin
    26.04.2017 10:52

    Зашел в комментарии думая что тут будут обсуждать алгоритм этого приложения, но что-то нет.

    У кого какие идеи как это реализовано и как можно повторить самому? В области ИИ не силен, но думаю что тут LSTM сеть, но каким образом она обрабатывает 2 голоса (свой, и тот, в который его надо превратить) и выдает подделку? Как и чем её обучали?


    1. enstain
      26.04.2017 11:32

      Первая мысль такая – в музыкальных редакторах можно синтезировать голос, который будет петь любую мелодию, это происходит за счёт сложения волны модулятора – голоса – с волной синтезатора. Но если можно управлять синтезатором, то почему бы не управлять и модулятором, тем самым изменяя не высоту звука, а его тембр. Принцип должен быть тот же, условно говоря, одну звуковую волну складываем со второй, каким именно алгоритмом – это уже частности. Если одна из волн синтезирована компьютером и слишком отличается от второй волны, которую пытаемся изменить, то как раз получается этакий «роботизированный» голос, вокодер. Здесь видимо получается такой же эффект, которого можно избежать, если исходный голос будет пытаться подражать тому тембру, на который подменяем исходник.

      По идее, для того, чтобы разница между двумя волнами была не так заметна, оба голоса должны произносить один и тот же текст, но тогда весь смысл фейка теряется. Чтобы сказать произвольный текст нужным голосом, скорее всего надо опуститься на уровень пониже, снять «маски» слогов или отдельных звуков, а не слов. Тогда нейросеть будет сканировать нашу произвольную речь, узнавать в ней слоги, и на каждый слог накладывать слог из банка слогов нужного тембра.


      1. veydlin
        26.04.2017 13:30

        Идея со слогами подходит как альтернативный вариант, но в статье говорится что достаточно «минутного образца», а этого явно мало для того чтобы составить БД слогов голоса


    1. EnigMan
      26.04.2017 11:47

      Вообще не специалист по ИИ. Но относительно обсуждаемой темы я так и не понял, что именно подделывает сервис. Первое, что приходит в голову — особенности звучания голоса. Здесь на первый взгляд все выглядит довольно просто. Голосовой аппарат у людей немного различается, соответственно основной тон голоса и его обертона у всех разные. Следовательно нужно научиться выделять разницу между частотными характеристиками голоса донора и реципиента, с последующей модификацией голоса реципиента на эту разницу. Как-то так. Остаются вещи, которые подделать на автомате сложнее. Особенности интонирования, расстановка ударений, дефекты дикции как мне кажется такое повторить техническими средствами сложнее. А такие вещи как словарный запас, особенности построения предложений, слова паразиты не лету сможет имитировать только человек.


    1. MikailBag
      26.04.2017 19:30

      [далее полное ИМХО, я не специалист в ML]
      Две нейросети, генератор и дискриминатор.
      Дискриминатор пытается отличить сгенерированыый голос от настоящего,
      а генератор пытается впарить сгенерированный голос дискриминатору.


  1. helgisbox
    26.04.2017 10:59

    На мой взгляд, судя по примерам, — пока не дотягивает. Но направление интересное и опасное.


  1. green_worm
    26.04.2017 12:51

    Здорово. Интересно, что получится, если попробовать петь голосом Высоцкого или Л. Армстронга.


  1. Gorynych23
    26.04.2017 12:57

    На мой взгляд, подделка голоса может быть использована исключительно в неблаговидных целях и не лишним будет законодательно запретить пользование этим сервисом.


    1. jetexe
      26.04.2017 14:34
      +1

      Да вам даже в статье написали зачем его можно использовать.
      Запретуны, блин.


  1. MxMaks
    26.04.2017 13:53

    Технология идентификации по голосу устарела до начала массовой эксплуатации… Сингулярность к нам приходит.


  1. VitalyNasennik
    26.04.2017 15:16
    -1

    Я такую технологию придумал ещё лет 15 назад, но реализовывать не стал. В двух словах. Я плотно занимался исследованием алгоритма компрессии GSM с целью его использования для распознавания голоса. Алгоритм GSM обрабатывает звук, разделяя его на два блока данных. Во-первых, алгоритм моделирует речевой тракт, представляя его как набор из 8 труб или волноводов с отражениями на границах. После подбора параметров этой модели и применения обратного фильтра остаётся чистый сигнал возбуждения — либо это пилообразный сигнал от голосовых связок для звонких звуков, либо это шумовой сигнал для остальных. Вот во втором блоке данных GSM передаются данные для восстановления сигнала возбуждения. Фокус в том, что пилообразный сигнал очень прост по своей структуре, его очень легко кодировать, мало параметров надо передавать для восстановления, а шумовой сигнал ещё проще — там вообще неважно, насколько точно он восстановится, шум он и в Африке шум. Соответственно, анализ этих блоков данных позволяет достаточно легко распознавать речь (с этим легко справятся нейронные сети). Как побочный эффект можно выделить индивидуальные особенности произношения звуков именно с точки зрения алгоритма GSM. Т.е. если вместо параметров своего речевого тракта в блок данных GSM подставить параметры речевого тракта другого человека, то после синтеза получится точная имитация его голоса (за исключением словаря и темпа речи). Однако осознав криминальные возможности применения этой технологии, не стал дальше разрабатывать.


  1. Quiensabe
    27.04.2017 03:53

    Разработчики говорят, что Lyrebird — первая в мире компания, которая предлагает технологию для точной подделки чужих голосов. В связи с этим на них налагаются определённые этические обязательства. Главным этическим обязательством является повсеместное информирование о возможностях технологии по точной подделке чужого голоса
    Шикарная попытка бесплатной раскрутки) Мы вам покажем десяток роликов очень посредственного качества, ну а вы скорее рассказывайте всем и каждому о нашей чудо технологии! Галактика в опасности!.. :)


  1. T-362
    27.04.2017 12:33

    Такую бы либу да в игровые движки! Может слегка исправит проблему, возникшую со времен ТЕС4 — когда РПГ деградировали до попсовых акшнов с туповатым сюжетом, кастрированной механикой, куцыми диалогами, зато все озвучено. (Да, если что я в курсе что есть хорошие «олдскул-лайк» РПГ, и просто хорошие РПГ вроде того-же Ведьмака, но это скорее исключения.)


    1. sumanai
      27.04.2017 15:52

      Так она модифицирует один голос, а не создаёт разные. Так что всё, чего можно добиться с её помощью- это проговаривание фразы «Когда-то и меня вела дорога приключений, а потом мне прострелили колено» разными голосами, а не одним.


      1. jetexe
        05.05.2017 17:19

        так она может смодифицыровть голосо гугл-женьщины


  1. Diordna
    28.04.2017 13:54

    Так ведь давно существует программа изменения голоса в Skype


  1. Coercer
    02.05.2017 12:24

    Т.е. в ближайшие пару лет может потерять актуальность диктофон?

    Это сильно меняет работу журналистов, юристов, историков и всех тех, для кого порой голос — единственная возможность идентифицировать человека.


  1. PULT
    03.05.2017 18:42
    -1

    https://vk.com/id17820273
    Контакт Алеса, можно напрямую или через сайт «Выргород» разницы нет.