Нейросеть Facebook заговорила голосом Билла Гейтса / forpes.ru

Главная
Нейросеть Facebook заговорила голосом Билла Гейтса

Нейросеть Facebook заговорила голосом Билла Гейтса +8

17.06.2019 15:58

nanton 11 4700 Источник

Шон Васкез и Майк Льюис из компании Facebook представили синтезатор речи с новым принципом работы весьма эффектным образом: на аккаунте разработчиков на Github появилась коллекция сэмплов, где нейросеть убедительно имитирует речь основателя Microsoft. На записях звучат несколько коротких фраз произвольного содержания, в которых не только точно копируется тембр голоса Гейтса, но и тонко передаются естественные интонации — последнее долгое время оставалось для искусственного интеллекта недосягаемо высокой планкой.

Созданная Facebook модель для синтеза человеческой речи называется MelNet, и это не первая коллекция клипов, которую она производит. Виртуальному двойнику Гейтса предшествовали имитации Джорджа Такеи, Джейн Гудолл, Стивена Хокинга и других знаменитостей. Подобный отбор персоналий вызван тем, что нейросеть тренировали преимущественно на архиве записей TED Talks — коротких лекций на темы, связанные с наукой, искусством и технологиями. Также дополнительно привлекались материалы из аудокниг, которые отличаются «оживленной манерой речи» исполнителя. Однако до сих пор даже тщательный отбор материала не мог избавить конечный результат от характерных механистических ноток.

Разработчики объясняют этот прорыв тем, что в отличие от WaveNet компании Google и других современных моделей, генерирующих речь, MelNet обучали не на графическом представлении амплитуды звуковых волн, а на спектрограммах. Метод амплитуд чрезмерно дробит звуковой поток, фиксируя изменения сигнала по миллисекундам, что затрудняет для искусственного интеллекта выявление нужных корреляций. В итоге некоторые характеристики речи (высота, тембр) улавливаются и впоследствии воспроизводятся в ущерб другим (интонация, фонемный состав). Спектрограммы представляют собой более информационно насыщенный формат, данные в них подаются в компактном виде, и комплексный анализ звукового потока проходит без помех.

Тем не менее, как отмечают и сами создатели MelNet, технология еще далека от совершенства. В клипах на Github не случайно озвучиваются короткие фразы: нейросеть пока способна точно выстраивать интонационный рисунок только для отдельных предложений. Обработка сложных смысловых массивов на таком же уровне — например, драматическое чтение небольшого рассказа или монолог, где меняются темы и эмоциональные окраски — на сегодняшний день невозможна.

Однако уже и в текущем своем виде разработка может найти применение в голосовых ассистентах, на горячих линиях и в прочих ситуациях, когда общение протекает по заданному сценарию и легко автоматизируется. Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении. Васкез и Льюис в своем интервью не затрагивали дальнейших планов по внедрению технологии и контролю рисков.

Комментарии (11)

Uris
17.06.2019 19:40
#20291544
+2
Следующим шагом надо натренировать сеть на записях речей Гитлера и послушать каким будет прогноз погоды в Житомире в начале июля.
1. Wesha
  17.06.2019 19:47
  #20291578
  "В отдельных районах Житомира температуры до +20000 градусов, возможны радиоактивные осадки"?
1. questor
  17.06.2019 19:48
  #20291586
  Начинать надо с классики жанра: все технологии обкатываются на порно. Там и фразы короткие и можно послушать интонацию. ))
  1. DesertFlow
    18.06.2019 00:40
    #20292492
    Перевод с сохранением голоса и интонаций действительно не помешал бы. А то ничего не понятно что там происходит.
    P.S. Если что, я обычный естественный человек, мои любимые человеческие хобби дышать воздухом и ходить на ногах

DesertFlow
17.06.2019 19:51
#20291600
Хех, сначала отказались от спектрограмм в пользу waveform, а теперь от звуковой волны обратно к спектрограммам, причем к классической голосовой mel-спектрограмме, судя по названию. И каждый раз преподносится, что такой входной формат подходит намного лучше, чем предыдущий. Ну-ну.

Дело в чем-то другом. В архитектуре сети, вычислительной мощности или в датасете.

deepform
18.06.2019 00:22
#20292452
Пелевин, да?)

old_bear
18.06.2019 05:42
#20292784
Интернет-издания отмечают также и потенциал для нелегального применения MelNet, ведь генерация голоса конкретного человека позволяет фальсифицировать любое высказывание в его исполнении.

Ждём появления тулов для генерации коротких роликов с произвольным человеком, который говорит в камеру «я согласен взять этот кредит в вашем банке»?

logran
18.06.2019 10:13
#20293356
Сделали бы наконец не генерацию, а стилизацию одного голоса в другой, отлично бы взлетело в дип-фейках и подхватилось сообществом.

LODIII
18.06.2019 12:07
#20294178
-1
Где то тут рядом идентификация по голосу в банкоматах Сбербанка
1. GokenTanmay
  18.06.2019 13:33
  #20294728
  А есть ли у Билла, нашего, Гейтса счет в сбере? А банкомат с идентификацией по голосу найдется.

APL_not_Apple
18.06.2019 18:45
#20296444
-1
… а в это время некоторые банки (не буду показывать пальцем) собираются ввести аутентификацию по голосу…