В мае 2015 года стало известно, что актер озвучивания мультсериала «Симпсоны» Гарри Ширер, чьим голосом говорят несколько ключевых персонажей, например, мистер Бернс и его ассистент Смитерс, покидает проект.
Причин тому сразу несколько. Во-первых, на тот момент сериал продолжался уже более 25 лет. Гонорары актеров все эти годы росли — с 30 000 долларов за серию в 1998 году до 400 000 долларов с 2008 года. Однако такой расклад не устроил студию Fox: она пригрозила отменить «подшефный» сериал, если продюсеры не сократят оплату актеров хотя бы на 30%.
Нельзя просто так взять и уйти из «Симпсонов»
Почти все согласились с таким положением дел и продолжили работу. Однако Гарри Ширер, ранее уже критиковавший качество новых серий, отказался продлевать контракт. Двадцать лет в этой «золотой клетке» практически не оставляли ему свободного времени на собственные проекты. По словам шоураннера Эла Джина, на место Ширера планировалось нанять других актеров. На минуточку: рекасту могли подвергнуться в том числе директор Скиннер, Нед Фландерс и Отто Манн.
Но нельзя просто так взять и уйти из «Симпсонов». Несколько месяцев спустя Ширер уступил студии и подписал новый контракт. Сериал и без того периодически ломает «четвертую стену», а с экрана летят гэги о замене голосов озвучки. Но шутки шутками, а «Симпсонам» уже 32 года. Срок немалый, большая часть актеров уже перешагнула рубеж пенсионного возраста: большинству из них уже минуло 60, а то и 70 лет. Самому Ширеру уже 77. Есть вероятность, что в ближайшие годы он окончательно покинет проект — уже по состоянию здоровья. То же самое может произойти и с другими «голосами» героев. Деньгами их не удержать: благодаря отчислениям за трансляции старых серий и озвучивание новых каждый из них сколотил состояние в десятки миллионов долларов.
Но может статься, что необходимость в содержании большого числа «живых» актеров вскоре отпадет сама собой. Не так давно персонаж Эдна Крабаппл (учительница Барта, была выведена из шоу после кончины актрисы Марсии Уоллес в 2013 году), снова появилась в сериале, на сей раз, чтобы окончательно проститься со зрителями. Для озвучки персонажа были использованы реплики, записанные при создании прошлых эпизодов.
Заменят ли актеров дипфейки
Вычислительные мощности постоянно растут, на рынок регулярно выходят новые, улучшенные технологии. В частности, постоянно развиваются и совершенствуются инструменты создания дипфейков. Возможно ли, что скоро любого персонажа можно будет сымитировать компьютерным образом?
Дипфейк можно создать даже на основе небольшого количества обучающих данных. А в распоряжении Fox находится запас озвучек за целых 32 года. Давайте разберемся, стоит ли ждать выхода на экран «Симпсонов», в озвучивании которых не были задействованы реальные актеры.
«Безусловно создать эпизод «Симпсонов», правдоподобно озвученный при помощи ИИ, возможно» — говорит Тим ??МакСмитурс, исследователь ИИ и медиа-продюсер, построивший речевую модель, которую можно обучить имитировать любой голос. «Но будет ли интересно его смотреть — это уже другой вопрос».
На своем YouTube-канале, Speaking of AI, МакСмитурс переделал культовую сцену из фильма «Ноттинг-Хилл»: в роли героини Джулии Робертс выступает Гомер.
В другом видео на канале МакСмитурса голосом Дональда Трампа говорит глуповатый Ральф Виггам.
МакСмитурс построил ИИ-модель, способную превращать любой письменный текст в речь на английском языке. Чтобы создать новый голос, достаточно обучить модель на двух-трех часах записей реального человека, снабженных письменной расшифровкой. По словам МакСмитурса, ИИ фокусируется на речевых особенностях персонажа: «…на том, что делает Гомера Гомером».
После обучения модель может сгенерировать несколько «дублей» одной и той же сцены, и каждый из них будет немного отличаться от предыдущего. Остается выбрать один наиболее удачный и использовать его в своих целях.
Синтезированный голос персонажа звучит ясно и узнаваемо, хотя и несколько «плоско». Он лишен характерных эмоций, которые актер озвучивания может добавить герою от себя. Создается ощущение, что знакомый голос зачитывает текст с бумажки, не понимая, о чем именно говорит.
«Всё зависит от набора обучающих данных» — говорит МакСмитурс. «Если в модель не заложен широкий спектр эмоций, она не сможет их произвести из ничего. Так что искусственный Гомер звучит гораздо менее энергично, чем настоящий».
Эмоции для дипфейков
Задачу придания искусственному голосу эмоций решает британский стартап Sonantic. Специалистам удалось создать собственную методику «создания эмоций» в голосах, сгенерированных ИИ. Чтобы получить как можно больше интонированных обучающих данных, программисты привлекают настоящих актеров озвучки. За одну сессию актер проходит один и тот же текст несколько раз, произнося его с разной эмоциональной окраской.
«Мы знаем, в чем заключается разница между сарказмом и искренним участием, умеем обрабатывать крошечные нюансы звука» — говорит Джон Флинн, соучредитель и технический директор Sonantic. «Мы научились качественно считывать и масштабировать естественные особенности и акценты живой речи». По словам Флинна, количество данных, необходимых для обучения, удалось сократить с 30-50 часов до 10-20 минут на человека.
Видео от Sonantic с демонстрацией возможностей технологии искусственного интеллекта по имитации человеческих эмоций:
Компании Replica Studios из Брисбена удалось построить модель для воссоздания голоса, которую можно обучить на 20 записях конкретных предложений. «Чем больше исходных данных, тем качественнее результат. Но кое-что интересное можно сделать и за пару-тройку минут» — говорит Шреяс Нивас, соучредитель и генеральный директор Replica.
Слова состоят из слогов, они, в свою очередь, — из фонем, отдельных звуков, которые можно издавать с помощью речевого аппарата. Теоретически, необходимые для обучения данные реально получить и из одного единственного предложения, известного как фонетическая панграмма. Такие предложения содержат все фонемы, свойственные языку, а их итоговое произношение будет зависеть от акцента и особенностей произносящего.
Распространенная панграмма для английского языка выглядит следующим образом: The beige hue on the waters of the loch impressed all, including the French queen, before she heard that symphony again, just as young Arthur wanted.
Такой же (во всяком случае, сходный) пример для русского языка: Всё ускоряющаяся эволюция компьютерных технологий предъявила жесткие требования к производителям как собственно вычислительной техники, так и периферийных устройств.
Технология генерации голоса из текста кое-где уже применяется. Хороший пример — видеоигры. Sonantic сотрудничает с компанией Obsidian, создателем некоторых игр серии Fallout и The Outer Worlds, а к услугам Replica прибегают и AAA-студии, и инди-разработчики. В частности, синтезированные «фоновые» диалоги позволяют наполнить открытый игровой мир гораздо большим количеством контента и сделать его живее. Подобный объем живых записей с участием актеров озвучивания стоил бы непомерно дорого и замедлил бы процесс производства игры.
Технология особенно полезна на ранних стадиях разработки: ИИ-голос можно использовать в качестве плейсхолдера и обкатать на нем различные варианты сценария. Когда всё будет готово, можно пригласить профессионального актера и записать реплики, не прерываясь на изменения и исправления.
В спортивных играх ИИ-голоса часто отдаются комментаторам (например, такой подход используется в FIFA для живого комментирования матчей). Существует также модификация для Cyberpunk 2077, которая позволяет изменить имя главного героя и заставить ключевых персонажей, которые обращаются к игроку, произносить его.
Так что там с «Симпсонами»?
Если студия Fox решится делегировать ИИ работу над озвучкой тех же «Симсонов», все эти навороты вряд ли пригодятся: диалоги заранее прописаны, а времени на качественную генерацию речи предостаточно. Но куда более вероятен сценарий, при котором место классических актеров займут люди с похожим тембром и сходными голосовыми возможностями. «Если цель состоит в том, чтобы снять еще один эпизод шоу, ничего лучше, чем собрать актеров, вручить им сценарий и попросить прочитать реплики, не найдется. Они этим занимаются уже не один десяток лет, им под силу воплотить своих персонажей на высочайшем уровне» — говорит Нивас. «Использование ИИ-актера потребует приложить гораздо больше усилий».
Помимо сугубо технических проблем, авторы шоу могут столкнуться с массой юридических проблем и нюансов.
При отсутствии каких-либо договорных отношений в игру вступает закон об авторском праве. «Тот, кто владеет авторскими правами на «Симпсонов», будет обладать всеми правами на воспроизведение готовых работ, включая записи актеров, а также правом на создание производных работ» — говорит Дженнифер Ротман, специалист по авторскому праву из Университета Пенсильвании.
Но это противоречит набору законов, регулирующих право свободы голоса. «Актеры и исполнители могут контролировать несанкционированное использование своих имен, образов и, в том числе, записей своих голосов».
Например, создатель Family Guy («Гриффины») Сет МакФарлейн озвучил и Брайана, и Стьюи. Притом своим естественным голосом он говорит от имени пса. Голос младенца Стьюи же был придуман им специально для этого образа. Так что технически прав на «Брайана» у актера несколько больше. Тем не менее, поскольку МакФарлейн также является создателем сериала, очень сомнительно, что его голос кто-то может заменить на искусственный без согласия автора.
Еще один сходный прецедент имел место в 1993 году. Два актера из сериала Cheers, Джордж Вендт и Джон Ратценбергер, подали в суд на Paramount за использование своих образов в качестве промо в барах аэропортов. Актеры утверждали, что право на публичность дает им контроль над собственным имиджем, Студия же утверждала, что закон об авторском праве позволяет создавать и эксплуатировать производные работы на основе ситкома. Дело рассматривалось в суде восемь лет, и студия в конечном итоге согласилась выплатить актерам гонорар за несанкционированную рекламу. Сумма не раскрывается.
Но актерам озвучивания, вероятно, пока не требуется искать адвоката по авторскому праву. Ни один инструмент генерации голоса не разрабатывается с целью полностью заменить реальных актёров на дешевые ИИ-копии. И Sonantic, и Replica стремятся подчеркнуть, что они работают с живыми актерами и, согласно внутренней модели распределения доходов, люди, чьи голоса используются для синтеза в видеоиграх, получают регулярные отчисления.
Зина Куреши, генеральный директор и соучредитель Sonantic, сравнивает нынешние технологии генерации голоса с первыми днями CGI: «Возможно воспроизвести голос реального актера, но не заменить его в фильме или сериале. CGI не лишил работы операторов, актеров, эта технология лишь помогает им работать лично и виртуально. Даже если человек уйдет на пенсию, его голос сможет работать за него».
МакСмитурс также проводит параллели с компьютерной графикой. По его словам, уже на данный момент возможно снять и озвучить эпизод «Симпсонов» без участия актеров озвучивания. Это будет долго, сложно, понадобится не одна сотня дублей. Тем не менее, вряд ли полученный результат выдержит испытание временем. Компьютерная графика начала 1990-х кажется современному зрителю неубедительной, устаревшей. То же самое произойдет с голосами. Тем не менее, можно использовать эту технологию «во благо»: например, для создания коротких фрагментов, призванных ненадолго «вернуть» умершего актера, чтобы он мог попрощаться со зрителем.
«Актеры привносят в своих персонажей гораздо больше, нежели просто голос. Они дарят свои эмоции, чувства» — говорит МакСмитурс. «Дэн Кастелланета наполняет двумерного Гомера своей теплотой, глубиной и прочими жизненно важными качествами, за которые мы его так любим. Настоящие люди очень хорошо умеют быть людьми».