Facebook создала и развернула нейронную систему преобразования текста в речь на серверах ЦП. Компания заявила, что система обеспечивает высокую эффективность вычислений и качество звука на уровне человеческой речи.
Если предыдущие системы обычно использовали графические процессоры или другое специализированное оборудование для создания высококачественной речи, то в данном случае задействованы CPU. При этом скорость синтеза выросла в 160 раз (одна секунда звука за 500 миллисекунд).
В Facebook считают, что новая нейронная система преобразования текста в речь TTS с современным качеством звука может играть важную роль в создании и масштабировании голосовых приложений, которые будут более человечными и приятными в использовании.
Система объединяет четыре компонента:
Лингвистический интерфейс преобразует входной текст в последовательность лингвистических функций, таких как фонемы и типы предложения. Модель просодии предсказывает ритм и мелодию для создания выразительности. Акустическая модель генерирует спектральное представление речи. Наконец, нейронный вокодер генерирует речевой сигнал 24 кГц, обусловленный просодией и спектральными характеристиками.
Модели посодии нужно всего 30–60 минут обучающих данных для разработки нового стиля голоса.
В акустической модели использовали 13-мерные характеристики MFCC, связанные с основной частотой и 5-мерной периодичностью.
Нейронный вокодер включает сверточную нейронную сеть, которая увеличивает (или расширяет) входные векторы объектов от частоты кадров (около 200 предсказаний в секунду) до частоты дискретизации (24 000 предсказаний в секунду). Плюс, в него входит рекуррентная нейронная сеть, похожая на WaveRNN, которая синтезирует аудиосэмплы авторегрессивно (или по одному сэмплу за раз) со скоростью 24000 штук в секунду.
Авторегрессионная природа нейронного вокодера требует генерации сэмплов в последовательном порядке, что делает синтез в реальном времени серьезной проблемой. Когда стартовал эксперимент Facebook, базовая система могла работать только на скорости синтеза около 80 в реальном времени (RTF) на одном ядре ЦП, генерируя одну секунду звука за 80 секунд. Тогда компания решила внедрить оптимизацию на уровне тензора и пользовательские операторы.
Систему уже развернули на Portal, устройстве Facebook для видеовызовов, она также доступна для использования в ряде других приложений — от сервисов чтения для слабовидящих до VR.
См. также:
APLe
Объясните чайникам, в чём новость? Синтезаторы речи на CPU же с восьмидесятых существуют, если не раньше.
Применение нейронных сетей какое-то важное преимущество даёт?
spc
Судя по первоисточнику, ключевое здесь «To generate humanlike audio, one second of speech can require a TTS system to output as many as 24,000 samples — sometimes even more. The size and complexity of state-of-the-art models require massive computation, which often needs to run on GPUs or other specialized hardware»
Т.е. просто буквы в звуки — не так сложно. А вот чтобы было похоже на человеческую речь, требовалось что-то довольно крутое, вроде специализированных вычислителей. Ну а теперь мы, образно говоря, снова можем смотреть видео на видеомагнитофоне.
ProLimit
Синтезаторы речи с приличным качеством ещё в самых первых Андроидах стояли и не нуждались в GPU. Так что без уточнения что же именно отличает новинку от предыдущих систем, новость не имеет смысла.
keydet
Интересуюсь этой темой еще со времен говорящей мыши и драгон диктата. Приличность познается исключительно в сравнении. Синтезаторы речи резко прибавили в качестве с появлением 3G/4G и возможности заливать семпл в облако, для распределённых вычислений. Применение же ML в сочетании с GPU-вычислениями (матрица инструкций, вместо последовательного конвейера инструкций, как в CPU) позволяет значительно уменьшить стоимость обслуживания такого облака, при этом качество самого сервиса может не поменяться, зато поменяется доступность технологии тому же малому бизнесу.
beeruser
Если кликнуть по ссылке, можно найти несколько примеров речи.
dmbreaker
Там же написано, что можно при этом голос изменить имея небольшой набор обучающих данных.