Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.
Созданная Facebook модель для синтеза человеческой речи называется MelNet, и это не первая коллекция клипов, которую она производит. Виртуальному двойнику Гейтса предшествовали имитации Джорджа Такеи, Джейн Гудолл, Стивена Хокинга и других знаменитостей. Подобный отбор персоналий вызван тем, что нейросеть тренировали преимущественно на архиве записей TED Talks — коротких лекций на темы, связанные с наукой, искусством и технологиями. Также дополнительно привлекались материалы из аудокниг, которые отличаются «оживленной манерой речи» исполнителя. Однако до сих пор даже тщательный отбор материала не мог избавить конечный результат от характерных механистических ноток.
Разработчики объясняют этот прорыв тем, что в отличие от WaveNet компании Google и других современных моделей, генерирующих речь, MelNet обучали не на графическом представлении амплитуды звуковых волн, а на спектрограммах. Метод амплитуд чрезмерно дробит звуковой поток, фиксируя изменения сигнала по миллисекундам, что затрудняет для искусственного интеллекта выявление нужных корреляций. В итоге некоторые характеристики речи (высота, тембр) улавливаются и впоследствии воспроизводятся в ущерб другим (интонация, фонемный состав). Спектрограммы представляют собой более информационно насыщенный формат, данные в них подаются в компактном виде, и комплексный анализ звукового потока проходит без помех.
Тем не менее, как отмечают и сами создатели MelNet, технология еще далека от совершенства. В клипах на Github не случайно озвучиваются короткие фразы: нейросеть пока способна точно выстраивать интонационный рисунок только для отдельных предложений. Обработка сложных смысловых массивов на таком же уровне — например, драматическое чтение небольшого рассказа или монолог, где меняются темы и эмоциональные окраски — на сегодняшний день невозможна.
Однако уже и в текущем своем виде разработка может найти применение в голосовых ассистентах, на горячих линиях и в прочих ситуациях, когда общение протекает по заданному сценарию и легко автоматизируется. Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении. Васкез и Льюис в своем интервью не затрагивали дальнейших планов по внедрению технологии и контролю рисков.
Комментарии (11)
DesertFlow
17.06.2019 19:51Хех, сначала отказались от спектрограмм в пользу waveform, а теперь от звуковой волны обратно к спектрограммам, причем к классической голосовой mel-спектрограмме, судя по названию. И каждый раз преподносится, что такой входной формат подходит намного лучше, чем предыдущий. Ну-ну.
Дело в чем-то другом. В архитектуре сети, вычислительной мощности или в датасете.
old_bear
18.06.2019 05:42Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении.
Ждём появления тулов для генерации коротких роликов с произвольным человеком, который говорит в камеру «я согласен взять этот кредит в вашем банке»?
logran
18.06.2019 10:13Сделали бы наконец не генерацию, а стилизацию одного голоса в другой, отлично бы взлетело в дип-фейках и подхватилось сообществом.
LODIII
18.06.2019 12:07-1Где то тут рядом идентификация по голосу в банкоматах Сбербанка
GokenTanmay
18.06.2019 13:33А есть ли у Билла, нашего, Гейтса счет в сбере? А банкомат с идентификацией по голосу найдется.
APL_not_Apple
18.06.2019 18:45-1… а в это время некоторые банки (не буду показывать пальцем) собираются ввести аутентификацию по голосу…
Uris
Следующим шагом надо натренировать сеть на записях речей Гитлера и послушать каким будет прогноз погоды в Житомире в начале июля.
Wesha
"В отдельных районах Житомира температуры до +20000 градусов, возможны радиоактивные осадки"?
questor
Начинать надо с классики жанра: все технологии обкатываются на порно. Там и фразы короткие и можно послушать интонацию. ))
DesertFlow
Перевод с сохранением голоса и интонаций действительно не помешал бы. А то ничего не понятно что там происходит.
P.S. Если что, я обычный естественный человек, мои любимые человеческие хобби дышать воздухом и ходить на ногах