В своем новом проекте компании Microsoft удалось значительно усовершенствовать технологии генерации речи. Разработанную нейросеть отличает естественное произношение, практически неотличимая от человеческой, и малый объем размеченной выборки, необходимой для обучения.

В основе разработки лежит нейроархитектура под названием Transformers, созданная одной из команд Google в 2017 году. Принцип обработки информации, который она применяет, в общих чертах повторяет механизм работы человеческого мозга. В частности, модели, построенные на ее базе, обладают способностью удерживать внимание — входные и выходные значения обрабатываются в динамическом режиме, что позволяет системе не терять контекст даже при работе с длинными фразами. Также в систему входит кодировщик, устраняющий лишние шумы из аудиоматериала и восстанавливающий поврежденные записи.

Для обучения нейросети исследователи отобрали из базы LJSpeech 200 коротких записей человеческой речи — в общей сложности около двадцати минут непрерывного звучания — и снабдили каждый из них транскрипцией. Исследователи подчеркнули, что клипы отбирались случайным образом, без сортировки по качеству звука, чтобы проверить также и работу кодировщика. За исключением этого набора больше предварительно обработанных данных системе не предоставлялось. Тем не менее, на стадии тестирования она показала результаты, превосходящие показатели стандартных алгоритмов: сгенерированная речь была различима в 99,84% случаев.

Для сравнения на странице проекта авторы представили несколько записей одинаковых текстов в двух вариантах: первый был создан обычными методами на базе выборки в 200 единиц, второй — с применением новых технологий Google при том же объеме учебного материала. Очевидная разница как во внятности произношения, так и в сходстве с голосом реального человека позволяет судить о преимуществах, которые дает система Transformers.

По мнению авторов, практическая значимость разработки состоит в том, чтобы сделать инструменты распознавания и генерации речи более доступными. Упрощенный процесс обучения на небольшом наборе данных будет стимулировать более широкое их применение в малом бизнесе и даже в индивидуальных проектах. Кроме того, станет значительно проще работать с языками, которые не располагают крупными базами данных с обработанным материалом, не жертвуя при этом качеством результата.

Код проекта в скором времени будет предоставлен в открытый доступ. Послушать и сравнить оба метода можно на странице проекта.

Комментарии (5)


  1. namikiri
    27.05.2019 19:05

    Хоть ссылочку на послушать бы дали.


    1. namikiri
      27.05.2019 19:06

      Ага, вижу, извиняюсь.


      1. baragol
        27.05.2019 19:07
        +1

        Да вроде и хотели заэмбеддить, но брать чужие файлы и выкладывать куда-то типа саундклауда — не комильфо. А <audiо> с прямой ссылкой на файл на Хабре не поддерживается.


  1. dipsy
    27.05.2019 20:12

    Вроде было же уже с год назад, у гугла. Однако до сих пор ассистенты вещают странноватыми роботизированными голосами, в чем подвох? Сильно требовательно к железу, что даже в облаке нельзя реализовать для широкой публики?


    1. cyber_roach
      27.05.2019 23:09

      Думаю тут правило 80/20
      Для оставшихся 20% до готового продукта нужно 80% времени.
      т.е. если на прототип ушло 2 года, то готовый стабильный продукт будет через лет 8.