DeepMind — это автономное подразделение Google, которое занимается разработками в области искусственного интеллекта. Эта компания разработала AlphaGo — систему, обыгравшую в го чемпиона мира по го Ли Седоля.
Но удел DeepMind — не только игры. Сейчас сотрудники компании занимаются разработкой компьютерной системы синтезирования речи. Как и во всех прочих проектах DeepMind, здесь замешана слабая форма искусственная интеллекта. Она, по мнению специалистов, может кардинально улучшить ситуацию с синтезированной речью.
Использование компьютеров для синтезирования речи — вовсе не новая идея. Наиболее простое решение — использование фрагментов речи реального человека, переведенной в цифру. Речь идет об отдельных звуках, из которых складываются более сложные звуковые фразы, слова и предложения. Но такой способ нельзя назвать идеальным. Здесь любой человек сразу замечает проблемы с произношением и интонацией.
В других случаях используются различные математические модели для того, чтобы синтезировать звуки, из которых можно собрать слова и предложения. Здесь примерно те же проблемы, что и в предыдущем случае. Да и сразу понятно, что говорит машина, а не человек.
Оба метода схожи тем, что из мелких фрагментов собираются более крупные и сложные. В результате такой компиляции компьютер произносит слова и сложные фразы.
Третий метод, WaveNet, предложенный компанией DeepMind, объединяет достоинства предыдущих двух. В методе используется обучение нейронных сетей с использованием фрагментов реальных человеческих голосов. Также система получает информацию о правилах лингвистики и фонетики, соответствующих каждому отдельному случаю. В процессе работы системе показывают строку текста и дают «слушать» соответствующий набор звуков. После этого система пробует синтезировать речь человека, используя ряд фрагментов. Делается это пошагово, с обучением на примере каждого конкретного фрагмента. Разработка ведется таким образом, чтобы каждый предыдущий «пройденный материал» давал нейронной сети представление о новом задании.
Аналогом того, что может сделать система WaveNet и обычная система синтеза речи является создание чашки. Обычная компьютерная система синтезирования речи для создания чашки использует как бы кубики Lego. В итоге чашка выглядит неплохо, но это не совсем чашка, а ее имитация. А вот WaveNet для создания чашки использует глину. Работа ведется вручную, без гончарного круга, но чашка получается похожей на чашку. Так и с речью. WaveNet синтезирует человеческую речь, которая немного отличается от того, к чему мы привыкли, но не очень значительно.
Результат впечатляет. Прослушать то, что получилось, можно здесь. Звучит уже действительно по-человечески. Конечно, отличия есть, но они уже не такие значительные, как в других случаях.
Единственная проблема в том, что этот метод требует большого количества машинного времени и ресурсов. Система, которая может генерировать внятную человеческую речь, должна быть очень мощной. Дело в том, что WaveNet для синтезирования человеческой речи обрабатывает каждую секунду 16000 образцов аудио. И даже в этом случае результат получается среднего качества. Тем не менее, в тестах на определение «человек или машина» результат был около 50%. То есть половина добровольцев, прослушавших аудио сэмпл, созданный машиной, считали, что это говорит человек.
Исследователи из DeepMind уже загрузили в систему более 44 часов речи. Загружаемые в систему слова, звуки и фразы принадлежат 109 участникам эксперимента, разговаривающих на английском языке. Как оказалось, WaveNet может смоделировать речь практически каждого из участников эксперимента. Система воспроизводит даже придыхание и дефекты речи оригинального «оратора».
Несмотря на то, что система говорит уже довольно неплохо, до настоящего совершенства еще далеко. Еще одна проблема — это то, что слабая форма ИИ пока что не умеет понимать язык. Максимального успеха в этом направлении добилась компания IBM с ее когнитивной системой IBM Watson. Но и здесь пока что речь идет о распознавании не слишком сложных устных и письменных команд, а также ответах на простые вопросы. Поддерживать разговор когнитивные системы пока не умеют. Тем не менее, технологии развиваются, и специалисты утверждают, что уже через 5-10 лет ситуация может кардинально измениться.
Ряд ученых утверждают, что сейчас слабой форме ИИ все же не хватает специфических компонентов разума. И это никак не зависит от размера самой сети. „Язык построен на других возможностях, вероятно, лежащих более глубоко и присутствующих в младенцах ещё до того, как они начинают владеть языком: визуальное восприятие мира, работа с нашим двигательным аппаратом, понимание физики мира и намерений других существ“, — говорит Тененбаум.
DeepMind и команда исследователей из Оксфордского университета сейчас работают еще над одним проектом. Это создание условной «красной кнопки» для сильной формы ИИ, которая, предположительно, может выйти из-под контроля человека после того, как человек создаст искусственный разум.
Комментарии (24)
beavaon
10.09.2016 22:33+1Около года назад думал о подобном методе синтеза речи на основе реальных фрагментов.
Возможно через некоторое время можно будет адаптировать этот метод и производить перевод
смоделированной речи с одного языка на другой с оригинальным голосом.perfect_genius
11.09.2016 08:43+1Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.
Я не понял, почему я ответил именно на ваше сообщение =) Похоже, это одна из особенностей Хабра.
13_beta2
12.09.2016 01:07Так Microsoft пару лет назад уже показывала перевод и синтез на основе исходного голоса.
Sadler
10.09.2016 23:59Ну да, с неограниченными финансовыми возможностями можно и напрямую часы аудиопотока прогонять. Я всё-таки для своих скромных задач предпочитаю сначала пройтись каким-нибудь constant Q transform перед обработкой — размерность по времени сокращается значительно. Минус, конечно, в том, что приходится потом генерировать фазу, т.к. её приходится отбрасывать. Зато не надо быть гуглом, чтобы заниматься этим.
Equin0x
11.09.2016 03:00+1Такими темпами этот ИИ скоро сможет подделать любой голос — со всеми особенностями, интонациями, ритмом.
fzzr
12.09.2016 01:07А также уникально идентифицировать, «пустив сеть в обратном направлении», по аналогии с, например, популярными сейчас генераторами картин в стиле великих художников. А может быть так, что это толкнёт вперёд распознавание речи. Я не спец по AI к сожалению.
Idot
11.09.2016 07:17+2Только мне вспомнились Vocaloid'ы?
Danov
11.09.2016 16:52В тему вспомнили.
С Vocaloid'ами оказалось проще, потому как частота голоса фиксированная, т.е. в ноту и продолжительность тоже предопределена. Потому первыми сходство получили именно вокалоиды. В реальной речи эти два параметра определяют интонацию и прочие оттенки речи, т.е. их нужно еще научиться качественно моделировать. А в музыке они зафиксированы мотивом.
tUUtiKKi13
12.09.2016 16:03+1Мне первым делом вспомнилась сцена из терминатора где т-1000 по телефону вместо Джонна Конора говорил.
perfect_genius
11.09.2016 08:57+2Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.
Ockonal
12.09.2016 01:37Сразу приходит в голову удивительная возможность перевести все книги в аудиоформат.
В принципе, когда слушаешь книги на протяжении нескольких лет, актерство и качество записи уже уходит на второй план, привыкаешь к этому. Так что безэмоциональность не особо повлияет на восприятие текста.
Arxitektor
Неплохо.
Но в записи слышно какое-то шипение или шум.
эффект долины (зловещей) )))
Для игр уже подойдет. Может здорово снизить цену озвучки.
Актёры могут продавать лицензии на голоса.
SinsI
По-моему, для игр лучше не такие системы, что генерят «с нуля», а модификаторы речи — так что один-два актёра могут озвучить сразу все роли — ведь компьютеру сложно объяснить, какую и где надо делать интонацию, ударения и прочие особенности речи.
grozaman
На помощь должны опять придти нейронные сети. Прогнать через них пару миллионов уже озвученных текстов и акценты будут раставлять сами, основываясь на «опыте» сети. А дальше человеку в простом WYSIWYG-редакторе останется их усилить или ослабить. Дело пяти лет, максимум.
SinsI
Не поможет.
Особенности воспроизведения — это дополнительный информационный слой, не содержащийся в тексте — и поэтому его нельзя сгенерировать на основе «опыта», и никакой WYSIWYG редактор тут не поможет, потому что вариантов — не фиксированое дискретное множество, а полноценный континуум. Именно способность создавать этот слой отличает профессиональных актёров от обычных людей с улицы, которых можно набрать для озвучки.
Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.
grozaman
В такое случае ждем полноценный слабый AI для этих целей :)
На мой скромный взгляд человеческая уникальность сильно надумана.
qw1
Тут нужен сильный ИИ, а не слабый, чтобы по контексту понять, фразу нужно произнести с угрозой или безразличием. Либо на тексте дополнительная разметка, но скорее всего она не сможет выразить все варианты, либо будет слишком сложной для написания.
tUUtiKKi13
Сильный ИИ с чувством юмора, который при этом мыслит и чувствует _абсолютно_ как человек.
Danov
Возразите, что у нейросеток нет чувства прекрасного? Уже есть научные работы в которых нейросетки обучают различать прекрасное и не очень и, думаю, не хуже людей могут различать. Так что контраргумент не зачитывается.
Vjatcheslav3345
Правильнее — так что один-два «индуса» из ближайшего театрального ПТУ за доширак.
Volutar
Это шипение — это следствие того, что входной сигнал (для обучения) квантизован до 256 значений (алгоритмом ?-law). И, кстати, в тексте не совсем корректно переведено как «обрабатывает каждую секунду 16000 образцов аудио». Речь про «16000 samples per second», что по-русски просто означает дискретизацию в 16Кгц.
На самом деле они проделывали то же самое и с 16битами, и «похожесть» была хуже. Некоторые шумы, они как-то работают в сторону реалистичности. Так уж получается.
Mad__Max
Кстати по китайски она болтает намного «чище». Не знаю насчет адекватности произношения/акцента (китайского не знаю), но вот конкретно шумов, шипений и искажений намного меньше.
А по английски — да очень неплохо. Не знаю какая тут зловещая долина — вполне похоже на обычного человека, только записывавшегося через некачественный микрофон или например говорящего по рации(аналоговой).