Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.

Созданная Facebook модель для синтеза человеческой речи называется MelNet, и это не первая коллекция клипов, которую она производит. Виртуальному двойнику Гейтса предшествовали имитации Джорджа Такеи, Джейн Гудолл, Стивена Хокинга и других знаменитостей. Подобный отбор персоналий вызван тем, что нейросеть тренировали преимущественно на архиве записей TED Talks — коротких лекций на темы, связанные с наукой, искусством и технологиями. Также дополнительно привлекались материалы из аудокниг, которые отличаются «оживленной манерой речи» исполнителя. Однако до сих пор даже тщательный отбор материала не мог избавить конечный результат от характерных механистических ноток.

Разработчики объясняют этот прорыв тем, что в отличие от WaveNet компании Google и других современных моделей, генерирующих речь, MelNet обучали не на графическом представлении амплитуды звуковых волн, а на спектрограммах. Метод амплитуд чрезмерно дробит звуковой поток, фиксируя изменения сигнала по миллисекундам, что затрудняет для искусственного интеллекта выявление нужных корреляций. В итоге некоторые характеристики речи (высота, тембр) улавливаются и впоследствии воспроизводятся в ущерб другим (интонация, фонемный состав). Спектрограммы представляют собой более информационно насыщенный формат, данные в них подаются в компактном виде, и комплексный анализ звукового потока проходит без помех.



Тем не менее, как отмечают и сами создатели MelNet, технология еще далека от совершенства. В клипах на Github не случайно озвучиваются короткие фразы: нейросеть пока способна точно выстраивать интонационный рисунок только для отдельных предложений. Обработка сложных смысловых массивов на таком же уровне — например, драматическое чтение небольшого рассказа или монолог, где меняются темы и эмоциональные окраски — на сегодняшний день невозможна.

Однако уже и в текущем своем виде разработка может найти применение в голосовых ассистентах, на горячих линиях и в прочих ситуациях, когда общение протекает по заданному сценарию и легко автоматизируется. Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении. Васкез и Льюис в своем интервью не затрагивали дальнейших планов по внедрению технологии и контролю рисков.

Комментарии (11)


  1. Uris
    17.06.2019 19:40
    +2

    Следующим шагом надо натренировать сеть на записях речей Гитлера и послушать каким будет прогноз погоды в Житомире в начале июля.


    1. Wesha
      17.06.2019 19:47

      "В отдельных районах Житомира температуры до +20000 градусов, возможны радиоактивные осадки"?


    1. questor
      17.06.2019 19:48

      Начинать надо с классики жанра: все технологии обкатываются на порно. Там и фразы короткие и можно послушать интонацию. ))


      1. DesertFlow
        18.06.2019 00:40

        Перевод с сохранением голоса и интонаций действительно не помешал бы. А то ничего не понятно что там происходит.
        P.S. Если что, я обычный естественный человек, мои любимые человеческие хобби дышать воздухом и ходить на ногах


  1. DesertFlow
    17.06.2019 19:51

    Хех, сначала отказались от спектрограмм в пользу waveform, а теперь от звуковой волны обратно к спектрограммам, причем к классической голосовой mel-спектрограмме, судя по названию. И каждый раз преподносится, что такой входной формат подходит намного лучше, чем предыдущий. Ну-ну.

    Дело в чем-то другом. В архитектуре сети, вычислительной мощности или в датасете.


  1. deepform
    18.06.2019 00:22

    Пелевин, да?)


  1. old_bear
    18.06.2019 05:42

    Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении.

    Ждём появления тулов для генерации коротких роликов с произвольным человеком, который говорит в камеру «я согласен взять этот кредит в вашем банке»?


  1. logran
    18.06.2019 10:13

    Сделали бы наконец не генерацию, а стилизацию одного голоса в другой, отлично бы взлетело в дип-фейках и подхватилось сообществом.


  1. LODIII
    18.06.2019 12:07
    -1

    Где то тут рядом идентификация по голосу в банкоматах Сбербанка


    1. GokenTanmay
      18.06.2019 13:33

      А есть ли у Билла, нашего, Гейтса счет в сбере? А банкомат с идентификацией по голосу найдется.


  1. APL_not_Apple
    18.06.2019 18:45
    -1

    … а в это время некоторые банки (не буду показывать пальцем) собираются ввести аутентификацию по голосу…