«Фотошоп» для человеческой речи / forpes.ru

Главная
«Фотошоп» для человеческой речи

«Фотошоп» для человеческой речи +21

06.11.2016 14:20

alizar 62 15300 Источник

3 ноября 2016 года на технологической конференции Adobe MAX компания Adobe представила очень интересную научно-техническую разработку, которая в будущем может превратиться в популярное программное приложение. Если описать изобретение вкратце, то это программа для семантического редактирования человеческой речи. При этом применяется не просто стандартный метод синтеза из собранных фонем (компиляционный синтез), но и вспомогательные методы, которые повышают реалистичность. Это интеллектуальный выбор трифонов и использование специафических характеристик голоса образца.

В результате пользователь пишет произвольный текст — а программа озвучивает его тем голосом, на который её натренировали. Можно быстро добавить в речь любые слова или вырезать ненужные.

На практике программа, представленная в рамках проекта VoCo, работает следующим образом. Сначала собирается база фонем для голоса конкретного человека на определённом языке. Для реалистичных результатов программе нужно минимум 20 минут речи человека. Чем больше — тем лучше. На базе собранных фонем (трифонов) программа затем может собирать словно из кирпичиков практически любые новые слова.

Фрагмент презентации VoCo на конференции MAX

В каком-то смысле работает VoCo напоминает работу контекстной кисти в «Фотошопе». Она тоже берёт фрагменты из разных мест картинки — и собирает из этих фрагментов новое изображение. Кусочек леса с фотографии леса, кусочек травы из другой картинки и девочка с третьей фотографии — и мы получаем совершенно новое фотореалистичное произведение с лесом, травой и девочкой на переднем плане. Если работа выполнена профессионально, то монтаж очень сложно определить. Так в советские времена стирали из истории людей, которые внезапно стали врагами народа. Был человек на фотографии — а теперь там пустота или другой человек.

Так и технология VoCo позволяет дополнять речь человека произвольными словами и фразами.

На конференции MAX презентацию провёл один из разработчиков Цзэюй Цзинь (Zeyu Jin). В опубликованной ранее научной работе он указан как сотрудник Принстонского университета, вместе с коллегой Адамом Финкельштейном (Adam Finkelstein). Технология разрабатывалась подразделением Adobe Research совместно с Принстонским университетом.

По задумке Adobe, технология поможет создателям контента для более простого редактирования аудидорожки: диалогов и закадрового текста, чтобы быстро исправить ошибку или внести изменения в сюжетную линию.

Adobe подчёркивает, что в данном случае уместнее говорить о «преобразовании голоса», чем о классическом голосовом синтезе. Целью голосового преобразования (voice conversion) является такое преобразование оригинального голоса, чтобы для слушателя он казался голосом другого человека по образцу голоса последнего.

Более подробно технические основы голосового преобразования описаны в вышеупомянутой научной работе, подготовленной совместно с Принстонским университетом. Её авторы показывают, что разработанная техника CUTE качественно превосходит другие методы голосовой конверсии. Альтернативные способы конверсии обычно основаны на параллельном анализе идентичных фраз источника и цели с последующим вычислением неких векторов преобразования в каком-либо адресном пространстве. После этого любой произвольный фрагмент голоса оригинала может быть преобразован с помощью полученных векторов. Но эти методы страдают от неприятных побочных эффектов — синтезированная таким образом речь получается глухой, невнятной.

Исследователям Adobe удалось преодолеть недостатки других техник с помощью гибридного метода CUTE. В названии зашифрованы четыре основные составляющие компоненты этой техники: компиляционный синтез (Concatenative synthesis); выбор единицы (Unit selection); предварительный отбор трифонов, то есть единиц из трёх фонем (Triphone pre-selection); использование свойств образца (Exemplar-based features).

Компиляционный синтез сводится к составлению сообщения из предварительно записанного словаря фонем. Это главный метод работы синтезаторов речи, которыми оснащаются различные устройства: от военных самолётов до бытовых устройств, в справочных службах операторов сотовой связи и др.

Как понятно из названия, разработанная гибридная техника сочетает в себе несколько методов синтеза речи и голосового преобразования.

В научной работе приводятся результаты сравнительных тестов с другими методами голосовой конверсии, в которых CUTE значительно превосходит конкурентов. При этом упоминаются некоторые его недостатки: он также как и все страдает от недостаточного количества фонем в базе при синтезе новых слов, из-за чего генерируются фонетически правильные, но не очень реалистичные результаты. Кроме того, он зависит от работы движка распознавания речи для корректной фонетической сегментации.

Пока неизвестно, собирается ли Adobe реализовать эту перспективную разработку в виде реального коммерческого продукта. Но уже сейчас можно сказать, что такая программа стала бы очень востребованной, при условии реалистичности синтеза голоса из фонем. Например, её могли бы использовать подкастеры для генерации подкастов из текста. Её можно использовать также для озвучивания аудиокниг, используя голос произвольного человека (например, собственной девушки). Такая технология наверняка найдёт применение в Голливуде для озвучки кадров в отсутствие актёра. Например, если с ним разорвали контракт или он умер посреди съёмок.

Поделиться с друзьями

-->

Комментарии (62)

dfgwer
06.11.2016 17:35
#9675082
+23
Проклятый прогресс, теперь звонки от родственников с просьбой срочно 100 штук закинуть станут реалистичнее.
1. Robotex
  08.11.2016 11:51
  #9678704
  Ну так ты родственникам закидывай, а не на левые номера карт.
  1. negodnik
    09.11.2016 11:35
    #9681288
    Ничто не мешает сказать «У меня поменялся номер карты, запиши»
    
    Robotex
    09.11.2016 11:48
    #9681322
    Ну тогда ты сам себе злобный буратино :) Встреться лично и отдай. Или на старый номер перезвони.

nikitastaf1996
06.11.2016 17:46
#9675092
Скоро любое видео можно будет смотреть с озвучкой в реальном времени.Даже не ждать.
1. Anarions
  06.11.2016 18:05
  #9675116
  +1
  Осталось прикрутить нейросеть распознающую эмоции в голосе-источнике, и накладывающую эти эмоции на переведённый результат.
  1. tunelix
    06.11.2016 22:01
    #9675452
    +1
    все эмоции будут закодированы в сабах
    
    Oplkill
    07.11.2016 09:59
    #9675940
    +1
    Осталось придумать как представлять эмоции в виде данных
    
    j_wayne
    07.11.2016 10:13
    #9675968
    +5
    Вот и найдется наконец полезное применение эмодзи)
    
    pestilent
    09.11.2016 15:57
    #9682060
    Ну основу W3C запилили: EmotionML.
  1. handicraftsman
    06.11.2016 22:03
    #9675458
    +2
    Осталось сделать свободный вариант этого всего дела.
1. Tabke
  07.11.2016 12:54
  #9676286
  +3
  Более того, озвучка будет но русском, но с оригинальными голосами иностранных актёров.
  1. tundrawolf_kiba
    07.11.2016 13:37
    #9676378
    Вот тут встает интересный вопрос, станут ли анимешники смотреть аниме с русской озвучкой, но голосами сэйю, или продолжат смотреть с оригинальной озвучкой и сабами?
    
    SirEdvin
    07.11.2016 14:41
    #9676514
    Ну… послушайте японскую калинку-малинку.

Loki3000
06.11.2016 19:30
#9675210
+1
Даже имея текст перед глазами, мне с трудом удавалось разобрать что он бормочет. Тембр голоса может передает и верно, но читает так же как любая другая электронная читалка.
1. Anarions
  07.11.2016 02:13
  #9675678
  Голос такой у человека-оригинала. Вполне внятно читает, один в один с человеком.
1. Meklon
  07.11.2016 11:05
  #9676050
  +2
  Олично читает. Jordan как-то чуть промямлил, но three times произнес отлично на мой вкус.

gionet
06.11.2016 19:41
#9675242
+8
В принципе, чего-то подобного давно ожидал… Недавно показали гугловский алгоритм, который читает почти так же как человек, даже вздыхает и паузы делает… Следом наверняка натаскают нейросеть на имитацию разных голосов и манеры речи.
Потом через год-другой эти технологии обработают напильником, и скоро можно будет, например, навигатор в машине заставить голосом Левитана объявлять повороты и названия населенных пунктов… Или голосом уже умерших актеров продублировать фильм. Эраст Гарин — король из золушки, мог бы читать сказки. Раневская читать рассказы Чехова и т.д.
Все предпосылки уже есть, технологии почти готовы.
Короче, ждём…
1. road_t
  07.11.2016 09:59
  #9675942
  +2
  наконец получим навигацию настоящим голосом жириновского)
  А уж если эту штуку петь научить… диджеи разного рода получат новый виток к развитию.
1. unxed
  07.11.2016 13:58
  #9676416
  > Все предпосылки уже есть, технологии почти готовы.
  
  Вот и с управляемым термоядерным синтезом так. Лет 50 уже)
1. fireSparrow
  07.11.2016 16:00
  #9676802
  Интересно, как скоро голоса начнут законодательно защищаться?
  
  Насколько я знаю, сейчас существует защита визуального образа (статья 152.1 ГК РФ) — визуальный образ человека нельзя использовать без согласия этого человека (или его родственников, если человек уже умер).
  Для голоса пока ничего похожего не нагуглил.

Kirtis
06.11.2016 21:03
#9675336
-2
Слишком опасная технология для выпуска её в качестве реального продукта. Очень много можно найти способов использовать её в противозаконных, преступных целях: любого человека можно скомпрометировать, всего лишь изменив пару слов в его речи. При этом регулировать распространение программ в эру интернета слишком проблематично, поэтому надеяться на то, что данная технология не попадёт в руки мошенников и других преступников, не приходится.
1. destroy
  06.11.2016 21:07
  #9675358
  +4
  Все в порядке, эволюция сделает свое дело.
  1. Alexufo
    06.11.2016 22:19
    #9675482
    -5
    Я думаю у вас пройдет это глумление с возрастом.
    
    aapazhe
    07.11.2016 11:14
    #9676076
    +1
    В тринадцать лет нормально так думать.
    
    Alexufo
    07.11.2016 21:01
    #9677536
    Возраст как будто обозначает наличие мозгов.
    Есть такая иерархия живых.
    Живые это:
    1) Я, дети
    2) жена муж
    3) мать отец
    4) дед и бабка
    5) дядя — тетя
    
    Все, а дальше все те — на кого распространяется эволюция. То есть дураки. А раз они дураки то должны умирать по законам эволюции.
    Нужно мне говорить, что это убеждение в эволюции среди дураков строится на религиозных убеждениях?
    Я не говорю что программа топика — зло. Я имею ввиду что выражения про эволюци..( ляляля что то там. эволюция сделает свое дело) признаны доказать себе превосходство над теми кто не читает geektimes.
1. entze
  06.11.2016 21:47
  #9675432
  "… и других..."
  20 минут записей голоса любого человека найдётся в небезызвестном «пакете», И отредактированный могут сохранять туда же.
1. SBKarr
  06.11.2016 22:15
  #9675478
  +3
  Мошенники и преступники и так живут неплохо, ведь суть их деятельности не в технологиях, а в знании процессов у человека в голове. В том числе в знании о том, как сделать так, чтобы человек не обратил внимания на различия в голосе. Компрометация и так успешно осуществляется с помощью единственной безвредной записи путём добавления собеседника и перестановки слов.
  
  Реально беспокоится можно актёрам озвучания, когда к технологии приделают генератор эмоций. Очень много проходных текстов можно будет записывать и без человека. Они и сейчас не слишком довольны жизнью… https://www.google.ru/search?q=pf,fcnjdrf+frn%60hjd+jpdexfybz&ie=utf-8&oe=utf-8&gws_rd=cr&ei=eoAfWK3-EomksAHDi5nQBA#newwindow=1&tbm=nws&q=SAG-AFTRA
  
  P.S. А база PRISM будет побольше базы из известного пакета, но почему первым всплывает именно он? Всё таки, АНБ и начали раньше, и размах покруче, и касается это граждан любой страны, а не одной конкретной…
  1. SinsI
    07.11.2016 08:11
    #9675810
    Генератор эмоций не нужен — эмоции можно брать из голоса озвучивающего.актёра.
    Просто он один сможет выдавать все виды голосов — от самого низкого хриплого баса до тончайшего сопрано, так что вместо команды будет достаточно 1-2 профессионалов на все звуки.
    
    General_Failure
    07.11.2016 11:37
    #9676108
    Где-то я уже видел что-то похожее
    Кажется, у Гоблина :)
    Ну что ж, ждём новых переводов от VoCo-Гоблина
1. GeeSVe
  06.11.2016 22:18
  #9675480
  +2
  Как и многие другие технологии и разработки — она может и будет использована не только во благо, но и во вред. Обязательно найдутся жулики, которые ей воспользуются. Просто надо будет знать, что не всему сказанному по телефону или ТВ можно верить. В общем-то, что в этом плохого?
  1. multlc
    06.11.2016 23:19
    #9675548
    А сейчас как? Многому сказанному по ТВ можно верить?
    
    GeeSVe
    07.11.2016 00:11
    #9675608
    Ну как сказать… Вот я когда посуду мою, мне двух каплей моющего средства никогда не хватает! Прям аж бесит! А так всё хорошо :)
  1. jex
    06.11.2016 23:49
    #9675578
    -1
    Теперь всех либиралов наконец-то поймают за руку! А то они всё гудят «голос не мой, не похож, бла бла бла».
1. alexvoz
  07.11.2016 00:04
  #9675596
  +1
  За фотошоп можно было сказать тоже самое, подделка документов, фотографий с места преступлений и т.д. но массово сейчас как-то такое не наблюдается. Экспертиза почти всегда сможет отличить оригинал.
  1. Alexufo
    07.11.2016 21:25
    #9677580
    Вот фейк с пририсованными тачками к буку.
    
    https://vimeo.com/146179080
    
    Что скажет экспертиза?
1. agugnin
  07.11.2016 11:12
  #9676070
  +1
  Тут есть и обратная сторона медали — всегда ситуацию можно будет обиграться так, что любая компрометирующая запись сможет быть подана как синтезированная поддлка, так что даже если что-то ляпнул, можно будет легче отмыться.
  1. alexvoz
    07.11.2016 12:31
    #9676244
    Так же, как и сейчас ссылаются на поддельные фото, видео и документы. Это не повод не развивать технологии )
1. artemerschow
  07.11.2016 13:16
  #9676336
  Разумеется, разумеется https://gitlab.com/worldmind/fire-story
1. unxed
  07.11.2016 14:01
  #9676424
  Если технология в принципе реальна — рано или поздно появится open source аналог — не на гитхабе так в даркнетах. Как прикажете это дело ограничивать или регулировать? Лучше сразу включать мозг и придумывать, как обезопасить себя/близких от потенциально опасных применений.

kalmarius
06.11.2016 22:05
#9675464
+1
… и сразу вспомнился момент из «Терминатора-2», когда Т800 разговаривал по телефону голосом Джона Коннора.
Скрытый текст

alexvoz
07.11.2016 00:12
#9675610
На таких конференциях представляли технологии деблюра (восстановление четкости в изначально размытой или смазанной фотографии), удаления людей по нескольким фото, для редактора анимаций показывали панель генерирования реалистической анимации с физикой — это из того, что я вспомнил. Но пока что то не вижу я в их продуктах таких функций. Так что и эта технология может отправится «на полку».
1. SOb_S
  07.11.2016 07:36
  #9675792
  В их продуктах может и нет, но на рынке же есть. В Affinity Photo, к примеру, есть Stack и операции с ним – те самые увеличение чёткости и удаление объектов.
  1. alexvoz
    07.11.2016 12:40
    #9676254
    В бэта-версии для Win таких функций не обнаружил. Судя по видео работы программы удаление объектов работает по тому же принципу, что и заливка content-aware в photoshop, причем примерно такого же качества. Видео демонстрации кардинального увеличения четкости не нашел (как на Adobe Max 2011).
    Понятно, что есть и будут появляться программные продукты с полезными уникальными функциями. Еще это все можно вручную делать, хоть и долго. Я к тому, что сама Adobe показывает какую то интересную функцию или технологию а потом нигде ее не использует.
    
    fundorin
    07.11.2016 20:37
    #9677500
    Потому что у вас бета Designer, а он пишет про Photo.
1. Namynnuz
  07.11.2016 20:25
  #9677482
  Вот прямо щас запустил фотошоп, скачал картинку с презентации и проделал все те же самые действия… Всё внимание на правый нижний угол: http://i.imgur.com/fI4GLc5.png
  
  Было бы невероятно странно, если бы свёртка вдруг отказалась работать. В данном случае, вся сложность в автоматическом снятии с картинки корректного зерна, приведшего к искажению.
  
  И нет, не обязательно результатом лабораторных изысканий становится коммерчески успешное приложение.
  1. Meklon
    07.11.2016 22:05
    #9677636
    +1
    На самом деле давно пора добавить копеечные акселерометры в фотоаппараты. И тогда траектория смаза связанная с движением камеры во время экспозиции может быть скорректирована.

ittakir
07.11.2016 08:46
#9675850
-2
Ждем новых фейков от Киселева о «прослушке» Навального.

SyGi
07.11.2016 10:00
#9675948
На каких языках всё это закодено?

alexisneverlate
07.11.2016 11:28
#9676090
+2
Следующий шаг — синтезирование речи тем же голосом, но на другом языке, что подойдет для переозвучки фильмов с сохранением голоса тех же актеров, ну и конечно перевод твоей речи на лету на другой язык.
Перспективы фантастические и немного пугающие.

Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.
1. Radmin
  07.11.2016 11:41
  #9676128
  +1
  Особенно пугает тем что может любой человек позвонить и разговаривать голосом любого человека — без видеосвязи уже будешь не верить.
  Можете уже начинать не верить даже с наличием видеосвязи… :)
  https://geektimes.ru/post/273030/
  1. alexisneverlate
    07.11.2016 11:52
    #9676144
    Да, но это реалистично (можно ведь лицо повернуть или еще что то сделать) будет мне кажется сложнее сделать чем голос т.е. какое то время хотя бы это даст шанс на проверку
1. safinaskar
  07.11.2016 19:02
  #9677288
  +1
  Namynnuz
  07.11.2016 21:09
  #9677554
  -1
  Ну это уж совсем какая-то пелевинщина полезла…

alexvoz
07.11.2016 11:49
#9676140
Более качественное видео
https://youtu.be/I3l4XLZ59iw

RaymanOne
07.11.2016 12:31
#9676242
+2
Объединяем вот с этим https://geektimes.ru/post/273030/

Bimawa
07.11.2016 14:41
#9676512
я один не понимаю в чем прикол?
И чем это отличается от проги say?
```
say "And ur I kiss my dog and love my wife"
```
1. Anarions
  07.11.2016 19:31
  #9677388
  Тем что она может говорить это любым голосом?

SBKarr
07.11.2016 16:20
#9676870
-1
На работе путём анализа видео установили, что это пропросту удобный GUI для уже существующей фичи в Adobe Audition. Оно берёт аналог звучания из образца и подставляет на место вставки. Например, слово wife в презентации было тупо скопировано с образца таким образом, что явно слышно падение интонации, характерное для конца утвердительного предложения в английском, хотя вставка была в середину. Проще говоря, система не умеет синтезировать речь, она умеет поставлять образцы звуков в соответствии с фонемами букв. Никакой хитрой начинки типа обученной нейросети там нет (или оно на совсем примитивном уровне), это просто адаптированный к речи интерфейс.

P.S. В сущности это действительно аналог say, если на вход подавать различные звуки для фонем помимо строки на чтение. Ничего больше.

4ebriking
08.11.2016 03:19
#9678104
анекдот на эту тему вспомнился:

Во время записи сложной фортепианной партии пианист всё время сбивался — то в одном месте, то в другом…
наконец звукорежиссер не выдержал: «слушай, да не мучайся ты… сыграй гамму»

alecv
08.11.2016 13:00
#9678902
Ямаховские Вокалоиды не дают спать Adobe
https://ru.wikipedia.org/wiki/Vocaloid

ZaytsevArtem
09.11.2016 17:06
#9682278
Здарова, начальник! Начальник, привет!