DeepMind — это автономное подразделение Google, которое занимается разработками в области искусственного интеллекта. Эта компания разработала AlphaGo — систему, обыгравшую в го чемпиона мира по го Ли Седоля.

Но удел DeepMind — не только игры. Сейчас сотрудники компании занимаются разработкой компьютерной системы синтезирования речи. Как и во всех прочих проектах DeepMind, здесь замешана слабая форма искусственная интеллекта. Она, по мнению специалистов, может кардинально улучшить ситуацию с синтезированной речью.

Использование компьютеров для синтезирования речи — вовсе не новая идея. Наиболее простое решение — использование фрагментов речи реального человека, переведенной в цифру. Речь идет об отдельных звуках, из которых складываются более сложные звуковые фразы, слова и предложения. Но такой способ нельзя назвать идеальным. Здесь любой человек сразу замечает проблемы с произношением и интонацией.

В других случаях используются различные математические модели для того, чтобы синтезировать звуки, из которых можно собрать слова и предложения. Здесь примерно те же проблемы, что и в предыдущем случае. Да и сразу понятно, что говорит машина, а не человек.



Оба метода схожи тем, что из мелких фрагментов собираются более крупные и сложные. В результате такой компиляции компьютер произносит слова и сложные фразы.

Третий метод, WaveNet, предложенный компанией DeepMind, объединяет достоинства предыдущих двух. В методе используется обучение нейронных сетей с использованием фрагментов реальных человеческих голосов. Также система получает информацию о правилах лингвистики и фонетики, соответствующих каждому отдельному случаю. В процессе работы системе показывают строку текста и дают «слушать» соответствующий набор звуков. После этого система пробует синтезировать речь человека, используя ряд фрагментов. Делается это пошагово, с обучением на примере каждого конкретного фрагмента. Разработка ведется таким образом, чтобы каждый предыдущий «пройденный материал» давал нейронной сети представление о новом задании.

Аналогом того, что может сделать система WaveNet и обычная система синтеза речи является создание чашки. Обычная компьютерная система синтезирования речи для создания чашки использует как бы кубики Lego. В итоге чашка выглядит неплохо, но это не совсем чашка, а ее имитация. А вот WaveNet для создания чашки использует глину. Работа ведется вручную, без гончарного круга, но чашка получается похожей на чашку. Так и с речью. WaveNet синтезирует человеческую речь, которая немного отличается от того, к чему мы привыкли, но не очень значительно.

Результат впечатляет. Прослушать то, что получилось, можно здесь. Звучит уже действительно по-человечески. Конечно, отличия есть, но они уже не такие значительные, как в других случаях.



Единственная проблема в том, что этот метод требует большого количества машинного времени и ресурсов. Система, которая может генерировать внятную человеческую речь, должна быть очень мощной. Дело в том, что WaveNet для синтезирования человеческой речи обрабатывает каждую секунду 16000 образцов аудио. И даже в этом случае результат получается среднего качества. Тем не менее, в тестах на определение «человек или машина» результат был около 50%. То есть половина добровольцев, прослушавших аудио сэмпл, созданный машиной, считали, что это говорит человек.

Исследователи из DeepMind уже загрузили в систему более 44 часов речи. Загружаемые в систему слова, звуки и фразы принадлежат 109 участникам эксперимента, разговаривающих на английском языке. Как оказалось, WaveNet может смоделировать речь практически каждого из участников эксперимента. Система воспроизводит даже придыхание и дефекты речи оригинального «оратора».

Несмотря на то, что система говорит уже довольно неплохо, до настоящего совершенства еще далеко. Еще одна проблема — это то, что слабая форма ИИ пока что не умеет понимать язык. Максимального успеха в этом направлении добилась компания IBM с ее когнитивной системой IBM Watson. Но и здесь пока что речь идет о распознавании не слишком сложных устных и письменных команд, а также ответах на простые вопросы. Поддерживать разговор когнитивные системы пока не умеют. Тем не менее, технологии развиваются, и специалисты утверждают, что уже через 5-10 лет ситуация может кардинально измениться.

Ряд ученых утверждают, что сейчас слабой форме ИИ все же не хватает специфических компонентов разума. И это никак не зависит от размера самой сети. „Язык построен на других возможностях, вероятно, лежащих более глубоко и присутствующих в младенцах ещё до того, как они начинают владеть языком: визуальное восприятие мира, работа с нашим двигательным аппаратом, понимание физики мира и намерений других существ“, — говорит Тененбаум.



DeepMind и команда исследователей из Оксфордского университета сейчас работают еще над одним проектом. Это создание условной «красной кнопки» для сильной формы ИИ, которая, предположительно, может выйти из-под контроля человека после того, как человек создаст искусственный разум.
Поделиться с друзьями
-->

Комментарии (24)


  1. Arxitektor
    10.09.2016 21:55
    +5

    Неплохо.
    Но в записи слышно какое-то шипение или шум.
    эффект долины (зловещей) )))
    Для игр уже подойдет. Может здорово снизить цену озвучки.
    Актёры могут продавать лицензии на голоса.


    1. SinsI
      11.09.2016 08:29
      +3

      По-моему, для игр лучше не такие системы, что генерят «с нуля», а модификаторы речи — так что один-два актёра могут озвучить сразу все роли — ведь компьютеру сложно объяснить, какую и где надо делать интонацию, ударения и прочие особенности речи.


      1. grozaman
        11.09.2016 12:23
        +1

        На помощь должны опять придти нейронные сети. Прогнать через них пару миллионов уже озвученных текстов и акценты будут раставлять сами, основываясь на «опыте» сети. А дальше человеку в простом WYSIWYG-редакторе останется их усилить или ослабить. Дело пяти лет, максимум.


        1. SinsI
          11.09.2016 13:22
          +3

          Не поможет.
          Особенности воспроизведения — это дополнительный информационный слой, не содержащийся в тексте — и поэтому его нельзя сгенерировать на основе «опыта», и никакой WYSIWYG редактор тут не поможет, потому что вариантов — не фиксированое дискретное множество, а полноценный континуум. Именно способность создавать этот слой отличает профессиональных актёров от обычных людей с улицы, которых можно набрать для озвучки.
          Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.


          1. grozaman
            11.09.2016 14:19
            +1

            В такое случае ждем полноценный слабый AI для этих целей :)
            На мой скромный взгляд человеческая уникальность сильно надумана.


            1. qw1
              11.09.2016 16:54
              +1

              Тут нужен сильный ИИ, а не слабый, чтобы по контексту понять, фразу нужно произнести с угрозой или безразличием. Либо на тексте дополнительная разметка, но скорее всего она не сможет выразить все варианты, либо будет слишком сложной для написания.


              1. tUUtiKKi13
                12.09.2016 15:47

                Сильный ИИ с чувством юмора, который при этом мыслит и чувствует _абсолютно_ как человек.


          1. Danov
            11.09.2016 16:47

            Это как рисование — да, компьютер прекрасно сделает фото, и смодифицирует их в любой из набора заданых стилей — но художника из него не получится.
            Вы затронули старую тему, что компьютер не креативен. И далее следует вопрос о теории творчества, которых несколько. По одной из теорий, творчество это умение комбинировать существующие признаки в соответствии с набором ограничений. Компьютер очень хорошо справляется с этой задачей.

            Возразите, что у нейросеток нет чувства прекрасного? Уже есть научные работы в которых нейросетки обучают различать прекрасное и не очень и, думаю, не хуже людей могут различать. Так что контраргумент не зачитывается.


      1. Vjatcheslav3345
        12.09.2016 09:18

        Правильнее — так что один-два «индуса» из ближайшего театрального ПТУ за доширак.


    1. Volutar
      11.09.2016 09:25
      +2

      Это шипение — это следствие того, что входной сигнал (для обучения) квантизован до 256 значений (алгоритмом ?-law). И, кстати, в тексте не совсем корректно переведено как «обрабатывает каждую секунду 16000 образцов аудио». Речь про «16000 samples per second», что по-русски просто означает дискретизацию в 16Кгц.
      На самом деле они проделывали то же самое и с 16битами, и «похожесть» была хуже. Некоторые шумы, они как-то работают в сторону реалистичности. Так уж получается.


    1. Mad__Max
      11.09.2016 21:55

      Кстати по китайски она болтает намного «чище». Не знаю насчет адекватности произношения/акцента (китайского не знаю), но вот конкретно шумов, шипений и искажений намного меньше.

      А по английски — да очень неплохо. Не знаю какая тут зловещая долина — вполне похоже на обычного человека, только записывавшегося через некачественный микрофон или например говорящего по рации(аналоговой).


  1. beavaon
    10.09.2016 22:33
    +1

    Около года назад думал о подобном методе синтеза речи на основе реальных фрагментов.
    Возможно через некоторое время можно будет адаптировать этот метод и производить перевод
    смоделированной речи с одного языка на другой с оригинальным голосом.


    1. perfect_genius
      11.09.2016 08:43
      +1

      Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.

      Я не понял, почему я ответил именно на ваше сообщение =) Похоже, это одна из особенностей Хабра.


    1. alibertino
      12.09.2016 01:07

      Даешь Эдди Мёрфи из Шрэка на русском!


    1. 13_beta2
      12.09.2016 01:07

      Так Microsoft пару лет назад уже показывала перевод и синтез на основе исходного голоса.


  1. Sadler
    10.09.2016 23:59

    Ну да, с неограниченными финансовыми возможностями можно и напрямую часы аудиопотока прогонять. Я всё-таки для своих скромных задач предпочитаю сначала пройтись каким-нибудь constant Q transform перед обработкой — размерность по времени сокращается значительно. Минус, конечно, в том, что приходится потом генерировать фазу, т.к. её приходится отбрасывать. Зато не надо быть гуглом, чтобы заниматься этим.


  1. Equin0x
    11.09.2016 03:00
    +1

    Такими темпами этот ИИ скоро сможет подделать любой голос — со всеми особенностями, интонациями, ритмом.


    1. fzzr
      12.09.2016 01:07

      А также уникально идентифицировать, «пустив сеть в обратном направлении», по аналогии с, например, популярными сейчас генераторами картин в стиле великих художников. А может быть так, что это толкнёт вперёд распознавание речи. Я не спец по AI к сожалению.


  1. Idot
    11.09.2016 07:17
    +2

    Только мне вспомнились Vocaloid'ы?


    1. Danov
      11.09.2016 16:52

      В тему вспомнили.

      С Vocaloid'ами оказалось проще, потому как частота голоса фиксированная, т.е. в ноту и продолжительность тоже предопределена. Потому первыми сходство получили именно вокалоиды. В реальной речи эти два параметра определяют интонацию и прочие оттенки речи, т.е. их нужно еще научиться качественно моделировать. А в музыке они зафиксированы мотивом.


    1. tUUtiKKi13
      12.09.2016 16:03
      +1

      Мне первым делом вспомнилась сцена из терминатора где т-1000 по телефону вместо Джонна Конора говорил.


      1. lim
        13.09.2016 17:19

        T-101, а T-1000 был на другом конце провода.


  1. perfect_genius
    11.09.2016 08:57
    +2

    Рано или поздно видео и аудиозаписи перестанут быть доказательством в суде из-за лёгкости их подделывания.


  1. Ockonal
    12.09.2016 01:37

    Сразу приходит в голову удивительная возможность перевести все книги в аудиоформат.
    В принципе, когда слушаешь книги на протяжении нескольких лет, актерство и качество записи уже уходит на второй план, привыкаешь к этому. Так что безэмоциональность не особо повлияет на восприятие текста.