Фото: deepmind.com
Британская компания DeepMind показала новую систему преобразования текста в речь (TTS) под названием EATS. Она принимает входные данные в виде текста и переводит их в синтетическую речь, похожую на человеческую.
Процесс синтеза текста в речь сложный и включает несколько этапов обработки, таких как нормализация текста, согласованная лингвистическая адаптация, синтез mel-спектрограмм, синтез необработанных звуковых сигналов и так далее.
Хотя современные системы TTS, подобные тем, которые используются в голосовых помощниках типа Siri, могут похвастаться высокоточным синтезом речи и широким применением в реальных условиях, даже самые лучшие из них все же имеют недостатки. Каждый этап требует больших вложений, и системы не могут обучаться синтезу речи сквозным способом, как это происходит в других областях машинного обучения.
Для решения проблемы исследователи DeepMind разработали генеративную модель, обучаемую в состязательном порядке сквозным способом, которая обеспечивает производительность, сопоставимую с моделями SOTA.
Задачей EATS является сопоставление входной последовательности символов или фонем с необработанным звуком с частотой 24 кГц. EATS решает проблему неровного речевого сигнала с помощью двух подмодулей: выравнивателя, который предсказывает длительность каждого входного токена, и декодера, который увеличивает частоту выходного сигнала выравнивателя до полной звуковой частоты.
Модель EATS включает в себя:
Вся архитектура генератора является дифференцируемой и проходит сквозную подготовку. Состязательный подход позволяет ему учиться на относительно слабом контрольном сигнале, значительно снижая стоимость процесса. EATS не опирается на авторегрессионную выборку, что помогает избежать смещения экспозиции и снижения параллелизма во время вывода данных.
Исследователи оценили EATS с использованием среднего балла мнения (MOS) для измерения качества речи. В тестах все модели были обучены на наборах данных человеческой речи, которые подготовили профессиональные актеры. Пул включал 69 англоязычных текстов североамериканцев.
По сравнению с предыдущими моделями EATS требует значительно меньшего контроля, но все же достигает показателя MOS 4.083, приближаясь к уровню SOTA, например GAN-TTS и WaveNet.
Ранее исследователи из OpenAI показали алгоритм GPT-3, предназначенный для написания текстов на основе всего нескольких примеров. Модель обучали на 175 миллиардов параметрах или 570 гигабайтах текста. GPT-3 может отвечать на вопросы по прочитанному тексту, а также писать стихи, разгадывать анаграммы и осуществлять перевод. Ему достаточно от 10 до 100 примеров того, как выполнить действие.
Британская компания DeepMind показала новую систему преобразования текста в речь (TTS) под названием EATS. Она принимает входные данные в виде текста и переводит их в синтетическую речь, похожую на человеческую.
Процесс синтеза текста в речь сложный и включает несколько этапов обработки, таких как нормализация текста, согласованная лингвистическая адаптация, синтез mel-спектрограмм, синтез необработанных звуковых сигналов и так далее.
Хотя современные системы TTS, подобные тем, которые используются в голосовых помощниках типа Siri, могут похвастаться высокоточным синтезом речи и широким применением в реальных условиях, даже самые лучшие из них все же имеют недостатки. Каждый этап требует больших вложений, и системы не могут обучаться синтезу речи сквозным способом, как это происходит в других областях машинного обучения.
Для решения проблемы исследователи DeepMind разработали генеративную модель, обучаемую в состязательном порядке сквозным способом, которая обеспечивает производительность, сопоставимую с моделями SOTA.
Задачей EATS является сопоставление входной последовательности символов или фонем с необработанным звуком с частотой 24 кГц. EATS решает проблему неровного речевого сигнала с помощью двух подмодулей: выравнивателя, который предсказывает длительность каждого входного токена, и декодера, который увеличивает частоту выходного сигнала выравнивателя до полной звуковой частоты.
Модель EATS включает в себя:
Вся архитектура генератора является дифференцируемой и проходит сквозную подготовку. Состязательный подход позволяет ему учиться на относительно слабом контрольном сигнале, значительно снижая стоимость процесса. EATS не опирается на авторегрессионную выборку, что помогает избежать смещения экспозиции и снижения параллелизма во время вывода данных.
Исследователи оценили EATS с использованием среднего балла мнения (MOS) для измерения качества речи. В тестах все модели были обучены на наборах данных человеческой речи, которые подготовили профессиональные актеры. Пул включал 69 англоязычных текстов североамериканцев.
По сравнению с предыдущими моделями EATS требует значительно меньшего контроля, но все же достигает показателя MOS 4.083, приближаясь к уровню SOTA, например GAN-TTS и WaveNet.
Ранее исследователи из OpenAI показали алгоритм GPT-3, предназначенный для написания текстов на основе всего нескольких примеров. Модель обучали на 175 миллиардов параметрах или 570 гигабайтах текста. GPT-3 может отвечать на вопросы по прочитанному тексту, а также писать стихи, разгадывать анаграммы и осуществлять перевод. Ему достаточно от 10 до 100 примеров того, как выполнить действие.
См. также:
svanichkin
А где результаты можно послушать?
pdima
deepmind.com/research/publications/End-to-End-Adversarial-Text-to-Speech