WaveNet: синтезированная компьютером речь, похожая на человеческую / forpes.ru

Главная
WaveNet: синтезированная компьютером речь, похожая на человеческую

WaveNet: синтезированная компьютером речь, похожая на человеческую +20

10.09.2016 18:09

marks 24 14000 Источник

DeepMind — это автономное подразделение Google, которое занимается разработками в области искусственного интеллекта. Эта компания разработала AlphaGo — систему, обыгравшую в го чемпиона мира по го Ли Седоля.

Но удел DeepMind — не только игры. Сейчас сотрудники компании занимаются разработкой компьютерной системы синтезирования речи. Как и во всех прочих проектах DeepMind, здесь замешана слабая форма искусственная интеллекта. Она, по мнению специалистов, может кардинально улучшить ситуацию с синтезированной речью.

Использование компьютеров для синтезирования речи — вовсе не новая идея. Наиболее простое решение — использование фрагментов речи реального человека, переведенной в цифру. Речь идет об отдельных звуках, из которых складываются более сложные звуковые фразы, слова и предложения. Но такой способ нельзя назвать идеальным. Здесь любой человек сразу замечает проблемы с произношением и интонацией.

В других случаях используются различные математические модели для того, чтобы синтезировать звуки, из которых можно собрать слова и предложения. Здесь примерно те же проблемы, что и в предыдущем случае. Да и сразу понятно, что говорит машина, а не человек.

Оба метода схожи тем, что из мелких фрагментов собираются более крупные и сложные. В результате такой компиляции компьютер произносит слова и сложные фразы.

Третий метод, WaveNet, предложенный компанией DeepMind, объединяет достоинства предыдущих двух. В методе используется обучение нейронных сетей с использованием фрагментов реальных человеческих голосов. Также система получает информацию о правилах лингвистики и фонетики, соответствующих каждому отдельному случаю. В процессе работы системе показывают строку текста и дают «слушать» соответствующий набор звуков. После этого система пробует синтезировать речь человека, используя ряд фрагментов. Делается это пошагово, с обучением на примере каждого конкретного фрагмента. Разработка ведется таким образом, чтобы каждый предыдущий «пройденный материал» давал нейронной сети представление о новом задании.

Аналогом того, что может сделать система WaveNet и обычная система синтеза речи является создание чашки. Обычная компьютерная система синтезирования речи для создания чашки использует как бы кубики Lego. В итоге чашка выглядит неплохо, но это не совсем чашка, а ее имитация. А вот WaveNet для создания чашки использует глину. Работа ведется вручную, без гончарного круга, но чашка получается похожей на чашку. Так и с речью. WaveNet синтезирует человеческую речь, которая немного отличается от того, к чему мы привыкли, но не очень значительно.

Результат впечатляет. Прослушать то, что получилось, можно здесь. Звучит уже действительно по-человечески. Конечно, отличия есть, но они уже не такие значительные, как в других случаях.

Единственная проблема в том, что этот метод требует большого количества машинного времени и ресурсов. Система, которая может генерировать внятную человеческую речь, должна быть очень мощной. Дело в том, что WaveNet для синтезирования человеческой речи обрабатывает каждую секунду 16000 образцов аудио. И даже в этом случае результат получается среднего качества. Тем не менее, в тестах на определение «человек или машина» результат был около 50%. То есть половина добровольцев, прослушавших аудио сэмпл, созданный машиной, считали, что это говорит человек.

Исследователи из DeepMind уже загрузили в систему более 44 часов речи. Загружаемые в систему слова, звуки и фразы принадлежат 109 участникам эксперимента, разговаривающих на английском языке. Как оказалось, WaveNet может смоделировать речь практически каждого из участников эксперимента. Система воспроизводит даже придыхание и дефекты речи оригинального «оратора».

Несмотря на то, что система говорит уже довольно неплохо, до настоящего совершенства еще далеко. Еще одна проблема — это то, что слабая форма ИИ пока что не умеет понимать язык. Максимального успеха в этом направлении добилась компания IBM с ее когнитивной системой IBM Watson. Но и здесь пока что речь идет о распознавании не слишком сложных устных и письменных команд, а также ответах на простые вопросы. Поддерживать разговор когнитивные системы пока не умеют. Тем не менее, технологии развиваются, и специалисты утверждают, что уже через 5-10 лет ситуация может кардинально измениться.

Ряд ученых утверждают, что сейчас слабой форме ИИ все же не хватает специфических компонентов разума. И это никак не зависит от размера самой сети. „Язык построен на других возможностях, вероятно, лежащих более глубоко и присутствующих в младенцах ещё до того, как они начинают владеть языком: визуальное восприятие мира, работа с нашим двигательным аппаратом, понимание физики мира и намерений других существ“, — говорит Тененбаум.

DeepMind и команда исследователей из Оксфордского университета сейчас работают еще над одним проектом. Это создание условной «красной кнопки» для сильной формы ИИ, которая, предположительно, может выйти из-под контроля человека после того, как человек создаст искусственный разум.

Поделиться с друзьями

-->

Комментарии (24)

Arxitektor
10.09.2016 21:55
#9566334
+5
Неплохо.
Но в записи слышно какое-то шипение или шум.
эффект долины (зловещей) )))
Для игр уже подойдет. Может здорово снизить цену озвучки.
Актёры могут продавать лицензии на голоса.
1. SinsI
  11.09.2016 08:29
  #9566696
  +3
  По-моему, для игр лучше не такие системы, что генерят «с нуля», а модификаторы речи — так что один-два актёра могут озвучить сразу все роли — ведь компьютеру сложно объяснить, какую и где надо делать интонацию, ударения и прочие особенности речи.
  1. grozaman
    11.09.2016 12:23
    #9566876
    +1
    На помощь должны опять придти нейронные сети. Прогнать через них пару миллионов уже озвученных текстов и акценты будут раставлять сами, основываясь на «опыте» сети. А дальше человеку в простом WYSIWYG-редакторе останется их усилить или ослабить. Дело пяти лет, максимум.
    
    SinsI
    11.09.2016 13:22
    #9566930
    +3
    Не поможет.
    Особенности воспроизведения — это дополнительный информационный слой, не содержащийся в тексте — и поэтому его нельзя сгенерировать на основе «опыта», и никакой WYSIWYG редактор тут не поможет, потому что вариантов — не фиксированое дискретное множество, а полноценный континуум. Именно способность создавать этот слой отличает профессиональных актёров от обычных людей с улицы, которых можно набрать для озвучки.
    Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.
    
    grozaman
    11.09.2016 14:19
    #9566988
    +1
    В такое случае ждем полноценный слабый AI для этих целей :)
    На мой скромный взгляд человеческая уникальность сильно надумана.
    
    qw1
    11.09.2016 16:54
    #9567216
    +1
    Тут нужен сильный ИИ, а не слабый, чтобы по контексту понять, фразу нужно произнести с угрозой или безразличием. Либо на тексте дополнительная разметка, но скорее всего она не сможет выразить все варианты, либо будет слишком сложной для написания.
    
    tUUtiKKi13
    12.09.2016 15:47
    #9568896
    Сильный ИИ с чувством юмора, который при этом мыслит и чувствует _абсолютно_ как человек.
    
    Danov
    11.09.2016 16:47
    #9567204
    Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.
    Вы затронули старую тему, что компьютер не креативен. И далее следует вопрос о теории творчества, которых несколько. По одной из теорий, творчество это умение комбинировать существующие признаки в соответствии с набором ограничений. Компьютер очень хорошо справляется с этой задачей.
    
    Возразите, что у нейросеток нет чувства прекрасного? Уже есть научные работы в которых нейросетки обучают различать прекрасное и не очень и, думаю, не хуже людей могут различать. Так что контраргумент не зачитывается.
  1. Vjatcheslav3345
    12.09.2016 09:18
    #9567896
    Правильнее — так что один-два «индуса» из ближайшего театрального ПТУ за доширак.
1. Volutar
  11.09.2016 09:25
  #9566732
  +2
  Это шипение — это следствие того, что входной сигнал (для обучения) квантизован до 256 значений (алгоритмом ?-law). И, кстати, в тексте не совсем корректно переведено как «обрабатывает каждую секунду 16000 образцов аудио». Речь про «16000 samples per second», что по-русски просто означает дискретизацию в 16Кгц.
  На самом деле они проделывали то же самое и с 16битами, и «похожесть» была хуже. Некоторые шумы, они как-то работают в сторону реалистичности. Так уж получается.
1. Mad__Max
  11.09.2016 21:55
  #9567496
  Кстати по китайски она болтает намного «чище». Не знаю насчет адекватности произношения/акцента (китайского не знаю), но вот конкретно шумов, шипений и искажений намного меньше.
  
  А по английски — да очень неплохо. Не знаю какая тут зловещая долина — вполне похоже на обычного человека, только записывавшегося через некачественный микрофон или например говорящего по рации(аналоговой).

beavaon
10.09.2016 22:33
#9566394
+1
Около года назад думал о подобном методе синтеза речи на основе реальных фрагментов.
Возможно через некоторое время можно будет адаптировать этот метод и производить перевод
смоделированной речи с одного языка на другой с оригинальным голосом.
1. perfect_genius
  11.09.2016 08:43
  #9566702
  +1
  Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.
  
  Я не понял, почему я ответил именно на ваше сообщение =) Похоже, это одна из особенностей Хабра.
1. alibertino
  12.09.2016 01:07
  #9567646
  Даешь Эдди Мёрфи из Шрэка на русском!
1. 13_beta2
  12.09.2016 01:07
  #9567648
  Так Microsoft пару лет назад уже показывала перевод и синтез на основе исходного голоса.

Sadler
10.09.2016 23:59
#9566486
Ну да, с неограниченными финансовыми возможностями можно и напрямую часы аудиопотока прогонять. Я всё-таки для своих скромных задач предпочитаю сначала пройтись каким-нибудь constant Q transform перед обработкой — размерность по времени сокращается значительно. Минус, конечно, в том, что приходится потом генерировать фазу, т.к. её приходится отбрасывать. Зато не надо быть гуглом, чтобы заниматься этим.

Equin0x
11.09.2016 03:00
#9566598
+1
Такими темпами этот ИИ скоро сможет подделать любой голос — со всеми особенностями, интонациями, ритмом.
1. fzzr
  12.09.2016 01:07
  #9567650
  А также уникально идентифицировать, «пустив сеть в обратном направлении», по аналогии с, например, популярными сейчас генераторами картин в стиле великих художников. А может быть так, что это толкнёт вперёд распознавание речи. Я не спец по AI к сожалению.

Idot
11.09.2016 07:17
#9566676
+2
Только мне вспомнились Vocaloid'ы?
1. Danov
  11.09.2016 16:52
  #9567212
  В тему вспомнили.
  
  С Vocaloid'ами оказалось проще, потому как частота голоса фиксированная, т.е. в ноту и продолжительность тоже предопределена. Потому первыми сходство получили именно вокалоиды. В реальной речи эти два параметра определяют интонацию и прочие оттенки речи, т.е. их нужно еще научиться качественно моделировать. А в музыке они зафиксированы мотивом.
1. tUUtiKKi13
  12.09.2016 16:03
  #9568920
  +1
  Мне первым делом вспомнилась сцена из терминатора где т-1000 по телефону вместо Джонна Конора говорил.
  1. lim
    13.09.2016 17:19
    #9570608
    T-101, а T-1000 был на другом конце провода.

perfect_genius
11.09.2016 08:57
#9566712
+2
Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.

Ockonal
12.09.2016 01:37
#9567666
Сразу приходит в голову удивительная возможность перевести все книги в аудиоформат.
В принципе, когда слушаешь книги на протяжении нескольких лет, актерство и качество записи уже уходит на второй план, привыкаешь к этому. Так что безэмоциональность не особо повлияет на восприятие текста.