Голоса мы слышим постоянно: в метро, в навигаторах и в наших смартфонах. И если в том, что голоса в метро принадлежат настоящим людям, сомневаться не приходится, то вот ответ на вопрос, кто озвучивает виртуальных помощников и роботов, скоро может перестать быть таким однозначным.

С другой стороны, актерам озвучания пока можно не бояться потерять работу, ведь даже для озвучки робота BB-8 из «Звездных войн» привлекался Билл Хейдер (Bill Hader), ведущий известного американского шоу Saturday Night Live на NBC. Обо всем подробнее в сегодняшнем материале.

Фото Vancouver Film School CC-BY

Siri


Почти все слышали, как звучит американская версия Siri, но мало кто задумывается, что этот голос принадлежит реальному человеку, профессиональной актрисе озвучания, Сьюзан Беннетт (Susan Bennett). Правда, сама актриса во время работы над записью даже не представляла, что ее голос будет звучать из каждого кармана. Дело в том, что запись производила компания, занимающаяся преобразованием текста в речь, которую позже выкупила Apple.

В 2005 году Сьюзан проводила в звукозаписывающей студии 20 часов в неделю, но это были очень напряженные 20 часов: приходилось часто делать перерывы, пить много воды и начитывать абсолютную чушь, состоящую из набора всевозможных несвязанных слов. Для того, чтобы звуки можно было потом соединять в нужные слова, которые звучали бы естественно, необходимо проговорить все возможные сочетания звуков в языке. А доработка озвучки в 2011 году заняла уже 4 месяца, правда и работала «голос Siri» всего по два часа в день.
Подробнее о Siri и о том, как проходила запись, рассказывает сама Сьюзан Беннетт в выступлении на TED Talks:


Актриса переживает о незащищенности прав актеров озвучания — их голос может использоваться в каких угодно целях, и они не получают никаких дополнительных денег даже за такое коммерческое использование.

Британскую мужскую версию Siri под именем Daniel озвучивал теле- и радиоведущий Джон Бриггс (Jon Briggs), который тоже не знал, что его голос будет использован для Siri, пока не увидел рекламу по телевизору. Он также записывал голос для компании Scansoft в 2005. Ее позже выкупила Nuance, которая совместно с Apple и занимались разработкой Siri. Во время работы Джон записал 5 тысяч предложений за три недели, но в отличие от Сьюзан, его вполне устраивает полученный за озвучку гонорар.

Женщины против мужчин


А вот актриса, которая записывает голос для Google Now, предпочитает не показывать своего лица. Зато можно посмотреть, как происходит сам процесс записи:


Актриса отмечает, что этот процесс достаточно сложный, так как необходимо говорить в одном темпе и с одним тембром. Менять голос на протяжении всей записи нельзя, при этом следует соблюдать правильные интонации. Но в Google за этим следит команда, состоящая из лингвиста и специалиста по сценической речи, что позволяет в конечном счете получить более естественную речь.

В случае с Cortana от компании Microsoft ситуация совсем другая: сам образ и имя виртуальной помощницы было заимствован из серии игр Halo. Поэтому и для ее озвучки была приглашена та же актриса, которая работала над голосом одноименной героини в видеоиграх. Джен Тэйлор (Jen Taylor) точно знала, для чего будут использоваться записи, да и вообще никак не скрывалась и даже играла роль Кортаны в мини-сериале «Halo 4: Идущий к рассвету» в 2012 году.

Большинство виртуальных помощниц говорят женским голосом или названы женскими именами. Некоторые даже видят в этом проявление цифрового сексизма. Однако результаты исследований показывают, что женский голос чаще выбирают сами пользователи. Люди считают, что он звучит дружелюбнее, а мужской воспринимается как более агрессивный.

Это, конечно, не всегда так, большую роль играет интонация и тембр. Разница между восприятием двух разных мужских голосов можно увидеть на примере домашнего виртуального помощника Марка Цукерберга. Помощника зовут Jarvis, и с голосом Моргана Фримана он воспринимается как очень учтивая и воспитанная система:


Мы едем, едем, едем


Еще большее количество людей сталкивается с синтезированным голосом при использовании навигаторов. Мужской голос Яндекс.Навигатора был записан профессиональным диктором, а вот для записи женской версии привлекалась сотрудница компании. Запись заняла всего 3 часа, а текст уместился на 4-х листах, что, в сравнении с озвучкой виртуальных помощников, совсем немного.

Для построения предложений, которые произносит навигатор, используются отдельные слова, но на записи приходилось произносить целые фразы, чтобы текст звучал более естественно. Для озвучки навигатора к олимпиаде был приглашен Василий Уткин, который провел в студии несколько часов и наговорил 160 фраз. В навигаторе используются только 120, но создатели обещали менять некоторые из них, чтобы разнообразить поездки. А некоторые фразы Василий даже придумал сам.

Свои особенности есть и в озвучке объявлений в метро. Например, первые записи с современными голосами метро производились более 20 лет назад, а это значит, что писались они на катушки с пленкой. Поэтому у актеров не было права на ошибку. Точнее, если ошибка была допущена, приходилось переписывать все сначала. Да и сейчас, если к какой-то записи необходимо добавить новую информацию, приходится перезаписывать озвучку всей ветки целиком.

И лицо есть не только у Siri, но и у московского метрополитен. На самом деле их даже три: актёры, радио- и телеведущие Юлия Романова-Кутьина, Сергей Куликовских и Алексей Россошанский. К разным праздникам к озвучке объявлений привлекаются знаменитости или дети. А вот на то, что именно говорят голоса в метро, могут повлиять обычные люди. Например, после того как активисты выразили недовольство фразой «Просьба освободить вагоны», ее заменили на «Просьба выйти из вагона».

Но в скором будущем синтезирование речи будет происходить совсем иначе благодаря разработке Google. WaveNet синтезирует речь не из фрагментов записей человеческого голоса: программа воспроизводит звуковые волны, анализируя их с помощью сверточных нейронных сетей (послушать можно тут).

Кроме голоса она может даже имитировать музыку. Пока такая технология еще достаточно дорогая, так как для обучения сетей и обработки записей требуется достаточно много ресурсов и времени, но уже сейчас 50% людей в контрольной группе приняли речь WaveNet за человеческую. А в будущем можно будет сымитировать голос и интонации любого человека, правда, для обучения все равно пока нужны записи голоса настоящих людей.

P.S. Что еще можно почитать в нашем блоге:

Поделиться с друзьями
-->

Комментарии (13)


  1. GeMir
    13.03.2017 13:47
    +1

    Вот интересно, кто-нибудь из читателей статьи нашёл «ежедневное» применение своему голосовому ассистенту? Или большинство как и я наигрались за пару дней с той же Siri и отключили за ненадобностью?


    1. Celtis
      13.03.2017 14:10

      На MBP привык с ее помощью создавать напоминалки и события не отвлекаясь от текущей работы.


    1. sintech
      13.03.2017 14:18

      Отключаю через сири свет когда ложусь спать, для этого нужно сказать «спокойной ночи». Эта команда по умолчанию активирует сцену «выключить весь свет» в homekit. Еще очень удобно заводить таймер или ставить будильник.


    1. mdaemon
      13.03.2017 14:19
      +3

      У меня 99% использования — «поставь таймер на 5 минут», это быстрее и проще чем руками задавать.

      Условно — что бы не есть подгоревшие пельмени :)


      1. Rikkitik
        14.03.2017 16:36

        А ещё Сири умеет включать таймер на полторы минуты, а на экране можно выбрать только целое число минут.


    1. kAIST
      13.03.2017 14:22

      Активно пользуюсь за рулем (правда не siri а google now, но не суть). Позвонить, проложить маршрут, отправить сообщение и прочие мелочи.


    1. MAXInator
      13.03.2017 14:38

      S-Voice быстрее находит редко используемые мной приложения, чем я сам в меню среди кучи разноцветных значков. Например, «открой календарь» или «открой заметки».


    1. scayn
      13.03.2017 14:44

      Пользуюсь Siri только в автомобиле что бы запустить навигатор или узнать что за песня играет по радио.


    1. sergku1213
      13.03.2017 14:58

      Гугловым пользуюсь на дешевейшем китайском смартфоне. Вполне доволен. когда за рулем или на ходу — исключительно удобно. Правда список используемых мною команд ограничен — лень разбираться что он понимает, что нет.


    1. antonrr
      13.03.2017 16:07

      Создание напоминаний, будильник и таймер.


    1. Pakos
      14.03.2017 11:58

      Ford SYNC 3 — набор номера голосом, поскольку телефонную книгу делали пришельцы для пришельцев.


  1. ilyaster
    13.03.2017 16:33
    +2

    Единственный раз когда я пошел гуглить диктора, это было после поездки в киевском метро. Такой-то добрый и приятный голос :)


  1. lingvo
    13.03.2017 23:01

    Странно, почему не упомянули Acapela-group? Насколько я знаю, ихними голосами разговаривают многие навигации, ну и Алена у них неплоха.
    Сам использовал ихние фразы в своей продукции