Актёров озвучивания всё чаще просят подписать договор об уступке права на их голоса, чтобы клиенты могли использовать искусственный интеллект для создания синтетических версий голоса, которые в конечном итоге смогут заменить самих актёров — причём иногда без дополнительной компенсации. Так утверждают правозащитные организации и актёры, беседовавшие с изданием Motherboard. Эти договорные обязательства — лишь один из многих вопросов, заботящих актёров в связи с развитием искусственного интеллекта, генерирующего голоса, который, по их словам, угрожает лишить работы целые сегменты индустрии.

Эта новость подчёркивает бурное развитие индустрии искусственного интеллекта, генерирующего голоса, и показывает, насколько снизился барьер входа для любого желающего синтезировать голоса других людей. В январе Motherboard сообщила, как пользователи 4chan воспользовались бета-версией программы компании ElevenLabs, синтезирующей голоса, чтобы сгенерировать голоса знаменитостей, например Эмму Уотсон, читающую фрагменты «Майн Кампф». Последствия для индустрии озвучивания напрямую связаны и с работой ElevenLabs: компания продвигает свои услуги для создания игр, фильмов, аудиокниг и многого другого.

«Это неуважительно по отношению к ремеслу — предполагать, что сгенерированный голос эквивалентен работе реального человека», — сказал Motherboard по электронной почте СунгВон Чо, актёр озвучивания игр и анимации, который также работает под ником ProZD. «Конечно, вы можете заставить его звучать в разных тональностях, как голос, и, возможно, даже заставить его звучать так, как будто он передаёт эмоцию, но в итоге он всё равно будет звучать пусто и фальшиво. Идя по этому пути, люди рискуют стать жертвой заблуждения, что голос за кадром можно полностью заменён искусственным интеллектом, от чего мне просто плохо делается».

Сейчас существует множество компаний, которые предлагают клонировать, генерировать или синтезировать чей-то голос с помощью искусственного интеллекта. Motherboard протестировала несколько продуктов этих компаний, и в целом они работают одинаково. Сначала пользователь может записать свой собственный голос, используя сценарий, предоставленный компанией. После записи определённого количества аудиозаписей, длительностью от 10 до 60 минут, компания создаёт копию голоса пользователя. Затем пользователь может написать произвольный текст, а система прочтёт его вслух с помощью синтетической версии его голоса. Большинство сайтов, протестированных Motherboard, по умолчанию воспроизводят голос на американском английском языке. Стоимость этих услуг часто очень низкая, пользователи могут синтезировать голоса бесплатно или очень дёшево. Например, один из сервисов, протестированных Motherboard, предлагал подписку для профессионалов за 30 долларов в месяц.

Некоторые сайты также позволяют пользователям загружать ранее записанные аудиозаписи, что даёт возможность копировать записи знаменитостей или других людей, а затем синтезировать их без их ведома или согласия.

Фрайда Волф, актриса озвучания, принимавшая участие в создании такой игры, как Apex Legends, сказала Motherboard: «Разработчики игр, анимационные студии и, возможно, даже коммерческие клиенты могут получить возможность выжимать из меня больше путём передачи моего голоса искусственному интеллекту, использовать эти синтезированные работы, а затем никогда не выплачивать мне компенсацию за использование моего «аналога» и даже не сообщать моему агентству, что это было сделано».

Сара Элмалех, актриса озвучивания и режиссёр, работавшая над Fortnite и Halo Infinite, сказала, что, по её мнению, согласие на использование голоса «должно быть постоянным».

«Что сейчас происходит, когда мы соглашаемся на роль, но, оказавшись в кабинке, видим в сценарии какую-то строчку, которая нам не нравится, и выражаем недвусмысленный протест? Что произойдёт, если продюсер не поймёт или не примет серьёзность этого возражения? Обычно мы можем отказаться читать эту строчку, чтобы предотвратить её использование. Эта технология, очевидно, позволяет обойти эту проблему», — сказала она.

Тим Фридландер, президент и основатель Национальной ассоциации актёров озвучания (NAVA), сообщил Motherboard по электронной почте, что пункты в контрактах, которые дают продюсеру право синтезировать голос актёра, сейчас «очень распространены».

«Юридический язык может быть запутанным и неоднозначным», — сказал Фридландер. «Многие актёры озвучивания, возможно, подписали контракт, не подозревая, что в него был добавлен подобный пункт. Мы также находим в контрактах на обычное использование голоса пункты, которые дают право использовать голос актёра для обучения или создания синтетического голоса без какой-либо дополнительной компенсации или одобрения. Некоторым актёрам говорят, что их просто не примут на работу, если не согласятся с этими пунктами».
Чо сказал, что лично он не видел увеличения числа таких оговорок, но «я слышал от своих коллег, что они становятся все более распространёнными».

В ответ на это NAVA опубликовала советы для актёров, столкнувшихся с подобными формулировками в своих контрактах, включая рекомендацию передать контракты представителям профсоюза.

Фридландер сказал, что некоторые разделы индустрии озвучивания также будут потеряны из-за синтетических голосов. Фридландер особенно указал на «актёров озвучивания с дополнительной подработкой, которые работают на основной работе с 9 до 5, а затем пытаются построить карьеру в дубляже. Именно эти рабочие места синтетические голоса устранят в первую очередь, чем нанесут ущерб значительной части индустрии».

На своём сайте компания ElevenLabs заявляет, что она хочет «сделать многоязычную аудиоподдержку по требованию в образовании, потоковом вещании, аудиокнигах, играх, фильмах и даже для разговоров в реальном времени», и что у неё есть инструменты, которые «обеспечивают необходимое качество для озвучивания новостей, информационных бюллетеней, книг и видео».

Мати Станишевски, соучредитель ElevenLabs, сообщил Motherboard по электронной почте, что компания видит будущее, в котором ИИ-компании и актёры озвучивания будут сотрудничать. «Актёры озвучивания больше не будут ограничены количеством сессий записи, в которых они могут участвовать — вместо этого они смогут лицензировать свои голоса для использования в любом количестве проектов одновременно, обеспечивая дополнительные доходы и потоки роялти. Этот потенциал уже признали сами актёры озвучивания, несколько десятков из которых связались с нами, заявив о заинтересованности в таком партнёрстве», — написал Станишевский.

В ответ на заявление ElevenLabs Волф сказал, что «актёрам не нужна возможность лицензирования или «обеспечения дополнительных потоков дохода», этот бессмысленный жаргон демонстрирует, что ElevenLabs понятия не имеет, как актёры озвучивания зарабатывают себе на жизнь». Волф добавил: «Мы можем просто спросить у музыкантов, как хорошо у них идут дела с тех пор, как лицензирование потоковых платформ убило «дополнительные потоки доходов и роялти» для музыкальных исполнителей. Словоблудие ElevenLabs похоже на чёрный юмор».

Когда Motherboard попросил Станишевского представить одного из десятков актёров озвучивания, обратившихся в компанию, он указал на Лэнса Блэра, актёра озвучивания, в портфолио которого есть рекламные ролики и видео с конференций. Блэр сказал: «Несмотря на обоснованные опасения моих коллег, которые я разделяю, я использую эту технологию, чтобы помочь себе услышать себя так, как слышат меня другие, и исследовать различные способы подхода к моим текстам».

Блэр сказал, что он не состоит в профсоюзе. Что касается профсоюзных работников, то SAG-AFTRA, профсоюз актёров в США, сообщил Motherboard, что право имитировать голос исполнителя должно обязательно обсуждаться и утверждаться отдельно. «Любая формулировка в контракте исполнителя, которая пытается приобрести права на цифровое моделирование или цифровой синтез, является недействительной и не имеет законной силы до тех пор, пока условия не будут согласованы с профсоюзом», — говорится в заявлении SAG-AFTRA.

Фридландер добавил, что «NAVA не выступает против синтетических голосов или анти-ИИ — мы ратуем за актёров озвучания. Мы хотим, чтобы актёры озвучивания активно и на равных участвовали в развитии нашей индустрии и не потеряли своё агентство или возможность получать справедливую компенсацию за свою работу и талант».

Как говорит Чо, он «категорически против этого. Синтез голоса лишает реальное выступление души и спонтанности». Он добавил: «Я могу только надеяться, что синтетические голоса исчезнут совсем, но, по крайней мере, актёрам необходимо предоставить возможность не соглашаться на их использование».

Комментарии (25)


  1. sinefag
    18.04.2023 10:56
    +5

    обычное замещение ремесленников на фабрики, проходили уже. есть как плюсы, так и минусы, ручная работа в 21 веке никуда не ушла, ценится больше, чем фабричная.


    1. KhodeN
      18.04.2023 10:56
      +3

      Массовость ушла. Сейчас заработать руками сильно сложнее. Ты должен чем-то сильно выделится, чтобы смочь конкурировать с конвейером.


    1. Jetmanman
      18.04.2023 10:56

      Когда/если заменят программистов, на сколько громко будут орать на Хабре?


      1. Kasyan666
        18.04.2023 10:56

        Громко. Но, тем не менее, это будет точно такая же замена ремесленников на фабрики.


        1. Jetmanman
          18.04.2023 10:56

          Вы не видите здесь проблему для всех людей без исключения? Это не тоже самое, что автоматизация рабочих раньше, это автоматизация интеллектуального труда. Если раньше челвоек от машины отличался уровнем интеллекта, то сейчас постепенно последний оплот человека в виде интеллекта теряет свое преимущество. Что будут делать люди, когда программы и машины смогут делать абсолютно всё лучше человека и быстрее, а главное зачем тогда будет нужен человек. Это не лудизм, это выживание вида, биоэаолиюция сменяется техноэволюцией и человеку нечего предложить в копилку прогресса и вообще любой деятельности на одном поле деятельности с сильным ИИ. И ещё один фактор, пока ИИ будет в подчинении у отдельных собственников, то зачем им будут нужны другие люди в виде трудовой единицы? Когда говорят, что люди нужны потому что они создают спрос, но чем они будут платить за товары, если собственники не будут нанимать их на работу, а главное собственники таких корпораций как эпол или гугл, будут либо делать для себя всё сами, потому что они уже поглощают все рынки постепенно или будут предоставлять услуги и товары друг другу, а остальных людей просто выведут за круг своих отношений и деятельности и кормить соответственно такие собственники машин будут других людей только из жалости, но так как люди в будущем будут не нужны по этой логике, то и кормежка закончится, что будет проявляться в простом ограничении рождаемости. А далее машины просто заменят и самих собственников, когда станут совсем умными и самостоятельными.


          1. Kasyan666
            18.04.2023 10:56
            +1

            Всё просто: либо люди смогут возглавить эволюцию, объединившись с машинами в киборгов, либо попросту вымрут, как неконкурентноспособный вид. Персонально меня устраивают оба варианта.


  1. acyp
    18.04.2023 10:56
    +2

    Нас на земле 8 млд человек. Т.е. даже если сгенерировать совершенно случайный тембр, интонации и произношение есть существенная вероятность найти оригинал... И попробуй докажи, что это результат произвольной генерации, а не копирования.


    1. le2
      18.04.2023 10:56
      +1

      нет. Профессионально говорить могут единицы и это труд.
      Однажды соседи уехали на лето и оставили волнистого попугая у родителей. Когда приехали - попугай научился говорить несколько фраз. Мама несколько лет отработала в школе учителем и, мне кажется, успех с попугаем был в поставленном голосе.


      1. acyp
        18.04.2023 10:56

        успех с попугаем был в поставленном голосе

        Имеется ввиду умение интонировать голосом, чисто проговаривать слова и расставлять ударения? Если да, то это возможные параметры перебора.

        Говорить профессионально - это труд, я около полугода брал уроки вокала, что бы аудиторию "продавливать" (тогда только начал читать лекции). Тут я не спорю. Мой тезис был о том, что, перебирая параметры в итоге получить сгенерированную речь, похожую до степени смешения на речь существующего человека. Напрмер мою. Т.е. не записывая, а генерируя и подгоняя получить голос, которым озвучат лекции и студенты не поймут: я это читаю или нейросетка за меня.


  1. Metotron0
    18.04.2023 10:56
    +1

    Чтобы голос актёра передали нейросети, этот актёр должен чем-то выделиться в своей работе, стать узнаваемым. Если всё переделать на нейросети, то новых актёров не будет появляться, потому что никто не сможет стать узнаваемым, так как у него не будет столько работы, чтобы многие его услышали.


  1. Apxuej
    18.04.2023 10:56
    +1

    Думаю с голосами в скором времени будет тоже самое, что и с анимацией CGI персонажей. В дешёвых проектах будут использовать чисто синтезированные голоса и позволят ИИ играть роль. В более дорогих проектах также будут также часто использовать синтезированный голос (как выразительное средство или для получения возможности менять актёров для роли), но играть роль будет человек, ИИ будет лишь идеально переводить голос человека в синтезированный голос, тем самым облегчая работу звукорежиссёра.


  1. SozTr
    18.04.2023 10:56
    +5

    Как всегда штрейхберекейры всё испортят. Продадут свои голоса за копейки, их там улучшат и дальше натуральным талантам некуда будет деваться.


  1. ruspolkov
    18.04.2023 10:56

    Голоса то да, но физически же актера не заменить


    1. KhodeN
      18.04.2023 10:56
      +3

      Это не звучит, как нерешаемая задача. Просто чуть позже.


  1. uhf
    18.04.2023 10:56
    +1

    Пока еще даже просто реалистичный человеческий голос не синтезировали, а уж голос хорошего актера (не Шварцнеггера) на порядки сложнее сделать. Ведь вся огромная палитра интонаций должна соответствовать контексту. Я не думаю, что это решаемая задача в ближайшее десятилетие. Разве только когда ChatGPT-X научится смотреть фильмы, и пересмотрит их все.


    1. SozTr
      18.04.2023 10:56
      +1

      Пока еще даже просто реалистичный человеческий голос не синтезировали
      Пока не получилось, а потом как получится и будет как с картинками. На любой вкус и цвет, лучше у чем 80% «художников» и «дизайнеров».


      1. uhf
        18.04.2023 10:56
        +1

        Картинка это законченное самостоятельное произведение. А голос — нет, он должен ложиться в контекст, т.е. сцену. Там и текст, и подтекст, и эмоции героев, и мимика, и язык тела — да много чего. Промптами это не описать так просто.


        1. SozTr
          18.04.2023 10:56
          +1

          Год назад подавляющее большинство (в том числе я) имело тоже мнение по картинам и фото. Скорее всего проблема в размере рынка, те кто может — концентрируются на фото/видео/текст, а голосу только остатки любителей достаются.


          1. uhf
            18.04.2023 10:56

            Я еще оцениваю по сложности составления обучающего датасета (по моим представлениям). Картинки с текстовыми описаними можно в интернете бесплатно напарсить, для озвучки такого и близко нет.


            1. SozTr
              18.04.2023 10:56
              +1

              Какой нибудь виспер распознает с качеством очень близким к оригиналу, если потом прогнать на какой нибудь языковой модели и определить интонации и сопоставить с интонациями в аудио, то вполне можно автоматизировать обучение. Те же аудиокниги очень близко к оригиналу идут и те которые с хорошим качеством озвучки, вполне можно для обучения эмоциям поиспользовать. Главное на Радзинском не обучаться, а то получится странное.


              Наверное можно и от обратного пойти, определить различия в интонациях в аудио канале и потом делать анализ текстовых фрагментов.


              Ещё говорят для переводов фильмов создаётся пояснительная записка по тексту. По идее можно попробовать и с этим поработать.


              Ну и в конце концов сделать как опенэйай, набрать кенийцев по два бакса в час на разметку и оценку, за пару миллионов можно достаточно много получить данных.


        1. novoselov
          18.04.2023 10:56
          +1

          Я вас видимо расстрою, я уже видел такую технологию, к тексту идет специальная маркировка, которой можно менять интонацию, звучание и прочее. При это там даже не нужен актер озвучания, вполне сгодится оригинальный голос актера из фильма, который автоматически будет переведен на нужный язык.


          1. uhf
            18.04.2023 10:56

            Для музыки тоже есть нотация, но передает ли она достаточно информации, чтобы точно воспроизвести исходную композицию? Речевой аппарат очень сложный, там много мышц задействовано, соответственно куча параметров для описания их состояния.
            И потом, чувствительность тоже у всех разная. Режиссер озвучания может заставить актера сделать десять дублей, разницу между которыми обычный человек и не заметит. А кому-то и Яндекс-Алиса покажется естественным голосом.
            Могут конечно сделать смешение интонаций от одного актера, и тембра от другого, но это уже нельзя считать полноценным синтезом речи.


      1. Revertis
        18.04.2023 10:56
        +1

        Так у нейросетей до сих пор не получается нарисовать правильно руки или вилку. И с голосами будет так же, я думаю. Какие-то пограничные случаи всегда будут звучать максимально тупо.


  1. sergio_deschino
    18.04.2023 10:56
    +1

    С одной стороны — это удручает, конечно, актеров озвучки, а с другой — это возможность дублировать фильм/сериал/видео без особых затрат и проблем с оригинальными голосами на любой язык на лету. Звучит очень заманчиво, потому что французский, испанский, итальянский, японский, корейский, китайский я точно не выучу, чтобы смотреть фильмы/видео в оригинале.


  1. Dyrimar
    18.04.2023 10:56
    +1

    Я бы сместил акцент с технической возможности на слушателя. Как актер-любитель закадрового озвучания с многолетним стажем, могу смело заявить, что у любого кто захочет что-либо озвучить, даже не имея представления о таких вещах как дикция, логика речи, актерское мастерство и подача, найдутся свои благодарные слушатели. Есть персонажи которые заливают тексты книг в программы по озвучиванию донатов на стримах и так их слушают. И им норм. Так что каким бы ни было качество технической реализации синтеза речи потребители у него найдутся. И как показывает практика их количество будет расти. А актерам останется классический театр. И круг замкнется.