В своем новом проекте компании Microsoft удалось значительно усовершенствовать технологии генерации речи. Разработанную нейросеть отличает естественное произношение, практически неотличимая от человеческой, и малый объем размеченной выборки, необходимой для обучения.
В основе разработки лежит нейроархитектура под названием Transformers, созданная одной из команд Google в 2017 году. Принцип обработки информации, который она применяет, в общих чертах повторяет механизм работы человеческого мозга. В частности, модели, построенные на ее базе, обладают способностью удерживать внимание — входные и выходные значения обрабатываются в динамическом режиме, что позволяет системе не терять контекст даже при работе с длинными фразами. Также в систему входит кодировщик, устраняющий лишние шумы из аудиоматериала и восстанавливающий поврежденные записи.
Для обучения нейросети исследователи отобрали из базы LJSpeech 200 коротких записей человеческой речи — в общей сложности около двадцати минут непрерывного звучания — и снабдили каждый из них транскрипцией. Исследователи подчеркнули, что клипы отбирались случайным образом, без сортировки по качеству звука, чтобы проверить также и работу кодировщика. За исключением этого набора больше предварительно обработанных данных системе не предоставлялось. Тем не менее, на стадии тестирования она показала результаты, превосходящие показатели стандартных алгоритмов: сгенерированная речь была различима в 99,84% случаев.
Для сравнения на странице проекта авторы представили несколько записей одинаковых текстов в двух вариантах: первый был создан обычными методами на базе выборки в 200 единиц, второй — с применением новых технологий Google при том же объеме учебного материала. Очевидная разница как во внятности произношения, так и в сходстве с голосом реального человека позволяет судить о преимуществах, которые дает система Transformers.
По мнению авторов, практическая значимость разработки состоит в том, чтобы сделать инструменты распознавания и генерации речи более доступными. Упрощенный процесс обучения на небольшом наборе данных будет стимулировать более широкое их применение в малом бизнесе и даже в индивидуальных проектах. Кроме того, станет значительно проще работать с языками, которые не располагают крупными базами данных с обработанным материалом, не жертвуя при этом качеством результата.
Код проекта в скором времени будет предоставлен в открытый доступ. Послушать и сравнить оба метода можно на странице проекта.
Комментарии (5)
dipsy
27.05.2019 20:12Вроде было же уже с год назад, у гугла. Однако до сих пор ассистенты вещают странноватыми роботизированными голосами, в чем подвох? Сильно требовательно к железу, что даже в облаке нельзя реализовать для широкой публики?
cyber_roach
27.05.2019 23:09Думаю тут правило 80/20
Для оставшихся 20% до готового продукта нужно 80% времени.
т.е. если на прототип ушло 2 года, то готовый стабильный продукт будет через лет 8.
namikiri
Хоть ссылочку на послушать бы дали.
namikiri
Ага, вижу, извиняюсь.
baragol
Да вроде и хотели заэмбеддить, но брать чужие файлы и выкладывать куда-то типа саундклауда — не комильфо. А <audiо> с прямой ссылкой на файл на Хабре не поддерживается.