Теперь ИИ может заменить любого актера в фильме
Теперь ИИ может заменить любого актера в фильме

Свет, камера... алгоритм?

Теперь экран перестал быть уделом исключительно актеров из плоти и крови - все благодаря недавним достижениям в области искусственного интеллекта. В наши дни очень легко создать видео, в котором актеры делают или говорят то, чего на самом деле никогда не делали, или взять фрагмент из фильма и заменить лицо актера на другое.

В ИИ-генератор видео с открытым исходным кодом Hunyuan от Tencent недавно была интегрирована поддержка технологии Low-Rank Adaptation (LoRA), что означает, что теперь вы можете обучать пользовательские стили, персонажей и движения, делая ваши ИИ-видео по-настоящему уникальными и персонализированными.

Hunyuan был представлен в декабре 2024 года и быстро произвел впечатление на ИИ-сообщество, получив 95,7 % баллов за визуальное качество, опередив многих своих конкурентов. Теперь, благодаря интеграции с LORA, он стал еще мощнее. Этот бесплатный ИИ-генератор видео с открытым исходным кодом не уступает таким дорогим вариантам, как Sora от OpenAI, стоимость которого, кстати, может достигать 200 долларов в месяц.

Как работают эти ИИ-инструменты?

Существует три способа создать фейковое видео с актером.

  • Видео по текстовому описанию. Вы можете использовать тонко настроенную модель изображения с изображениями актера. Просто опишите видео, которое вы хотите сгенерировать, и ИИ создаст ролик с этим актером по описанию.

  • Видео из изображения. Если у вас нет модели изображения, обученной на образцах изображений, вы можете использовать изображение актера и превратить его в видео. Такое решение предлагают такие популярные платформы, как Kling AI, Runway, Pika Labs и др.

  • Видео из видео. Также возможно использование существующего видеоклипа и замена лица актера на другого персонажа. Это, пожалуй, самый эффективный способ создания видео с актером.

Давайте посмотрим на генкрацию видео из текстового описания на практике. Используя модель, обученную на фотографиях Киану Ривза в роли Джона Уика, вы можете написать промпт:

John Wick, a man with long hair and a beard, wearing a dark suit and tie in a church. He has a serious expression on his face and is holding a gun in his right hand. The scene is dimly lit, creating a tense atmosphere.

Это очень круто. Выглядит как настоящая вырезка из франшизы «Джон Уик». Даже люди на заднем плане выглядят очень реалистично.

В качестве альтернативы, при использовании технологии video-to-video, вы можете загрузить существующий ролик в ту же модель и попросить ИИ заменить лицо главного актера на лицо Джона Уика.

Вот результат:

Впервые увидев это в действии, вы будете шокированы в самом лучшем смысле этого слова. Реалистичность близка к умопомрачительной, особенно когда ИИ улавливает тончайшие движения в выражении лица актера. Волосы, освещение, тени - все это становится все лучше с каждой новой версией этих моделей.

За последние месяцы я видел множество моделей для видео, но эта, безусловно, лучшая по качеству.

Загрузка моделей и запуск рабочих процессов

Если вам интересно поэкспериментировать с этими методами, вы можете найти видеомодель, использованную в демонстрации «Джона Уика», на сайте CivitAI. Однако рабочий процесс еще не доступен для публичного доступа. Вам придется собрать его самостоятельно или дождаться официальной документации.

Если у вас мощный Mac, вы можете попробовать запустить рабочий процесс с помощью этой установки:

  1. Pinokio

  2. Hunyuan Video

  3. CivitAI John Wick LoRA

Рабочий процесс ComfyUI для CivitAI John Wick LoRA
Рабочий процесс ComfyUI для CivitAI John Wick LoRA

По моему опыту, не так уж сложно заставить все работать, если вы умеете работать с базовыми операциями командной строки, Docker или локальными средами ИИ-разработки. Тем не менее, кривая обучения может быть немного крутой, если вы совсем новичок в развертывании ИИ- моделей.

Как обучить собственную модель LoRA для видеомодели Hunyuan

Итак, сейчас я покажу вам, как можно обучить ИИ-модель, используя собственные видеоданные. Мы будем использовать модель zsxkib/hunyuan-video-lora из Replicate.

Теперь ИИ может заменить любого актера в фильме
Теперь ИИ может заменить любого актера в фильме

Два важных параметра, которые необходимо заполнить, - это модель назначения и исходные видеофайлы.

  • Выберите модель на Replicate, которая станет целевой для обученной версии. Если модель не существует, выберите опцию «Create model», и появится поле для ввода имени новой модели.

  • zip-файл, содержащий видео, которое будет использоваться для обучения. Если вы добавляете титры, добавьте их в виде одного файла .txt к каждому видео, например, к файлу my-video.mp4 должен прилагаться файл с титрами my-video.txt. Если вы не включаете субтитры, вы можете использовать опцию по умолчанию.

Теперь ИИ может заменить любого актера в фильме
Теперь ИИ может заменить любого актера в фильме

После создания вы будете перенаправлены на страницу подробностей обучения, где сможете следить за ходом обучения, загрузить веса и запустить обученную модель.

В строке запроса опишите тип видео, которое вы хотите просмотреть. В примере ниже в качестве исходного видео используется Роуз из BlackPink.

Промпт: In the style of RSNG. A woman with blonde hair stands on a balcony at night, framed against a backdrop of city lights. She wears a white crop top and a dark jacket, exuding a confident presence as she gazes directly at the camera

Теперь ИИ может заменить любого актера в фильме
Теперь ИИ может заменить любого актера в фильме

После того как все параметры установлены, нажмите кнопку «Boot + Run» и дождитесь создания финального видео. Приведенный ниже 2-секундный ролик был создан за 1,5 минуты.

Выглядит потрясающе! Конечным результатом может быть несколько размытый, но жутко реалистичный кадр, передающий сходство с Роуз и даже правильное отбрасывание теней.

Запуск этой модели на Replicate стоит примерно 0,20 доллара, или 5 запусков за 1 доллар, но это зависит от ваших исходных данных. Модель также имеет открытый исходный код, и вы можете запустить ее на своем компьютере с помощью Docker.

Мое личное мнение об обучении LoRA

Обучение LoRA может показаться удивительно простым. До появления LoRA вам приходилось обучать огромные сегменты модели, что требовало времени, денег и мощного оборудования.

С LoRA вы обучаете только небольшую матрицу (или набор матриц с низким рангом), встроенную в большую модель. Это означает значительно меньшее количество параметров, значительно меньшее время обучения и значительно меньшие вычислительные затраты.

LORA точно настраивает слои перекрестного внимания (QKV-части предсказателя шума U-Net)
LORA точно настраивает слои перекрестного внимания (QKV-части предсказателя шума U-Net)

Несмотря на то, что вы можете быстро обучить эти небольшие «адаптационные модели», результаты часто выглядят почти так же хорошо, как при тренировке полной модели. Именно это сочетание эффективности и качества заставляет меня радоваться тому, куда движется индустрия.

Сейчас мы находимся на том этапе, когда один разработчик или даже мотивированный любитель может создать специализированный и высококачественный ИИ, который раньше был прерогативой крупных технологических компаний.

Кроме того, LoRA дают разработчикам больше творческого контроля. Если я обучаю модель воспроизводить определенный эстетический стиль, например, живописный или винтажный, или передавать тонкую структуру лица и выражение определенной знаменитости, обучение на основе LoRA неизменно приносит результат.

Это эффективно, функционально и довольно дешево.

Этические последствия

Теперь давайте поговорим об этических последствиях технологии deepfake.

Известным примером, предшествующим нынешней ИИ-волне, является воскрешение Питера Кушинга с помощью CGI в фильме 2016 года «Изгой-один: Звёздные войны. Истории».

Питер Кушинг первоначально изображал Великого Моффа Таркина в фильме «Звездные войны: Новая надежда» (1977), но скончался в 1994 году. Так как «Изгой-один» ведет непосредственно к «Новой надежде», персонаж Таркина считался неотъемлемой частью сюжета, что побудило продюсеров вернуть Кушинга в цифровом формате.

Это решение вызвало дискуссию: допустимо ли с этической точки зрения использовать умершего актера в новом фильме, используя цифровые технологии, без его прямого согласия?

Реальная и сгенерированная ИИ фотография Питера Кушинга
Реальная и сгенерированная ИИ фотография Питера Кушинга

Одни утверждают, что это сохраняет преемственность и отдает дань уважения любимым персонажам. Другие утверждают, что это посягает на право актера распоряжаться своим образом и наследием.

Если актер при жизни не давал согласия на участие в определенном сюжете или контексте, имеет ли студия моральное право воскрешать его в цифровом формате?

Эти вопросы выходят за пределы морали. Как быть с актерами, которые еще живы, но не хотят участвовать в конкретном проекте? Исторически сложилось так, что двойники использовались в кино или сатире для изображения известных личностей.

Сегодня искусственный интеллект может создать практически идеальную копию чьего-то лица и голоса, фактически устранив все препятствия для принудительного участия. Договоры об использовании изображений, интеллектуальной собственности и моральных правах потребуют серьезного пересмотра, чтобы соответствовать этой реальности.

Во многих юрисдикциях существуют законы о «посмертных правах на публичность», которые позволяют наследникам контролировать коммерческое использование образа умершего человека. Однако законы разных стран сильно отличаются друг от друга и зачастую медленно реагируют на новые технологии.

Кроме того, существует огромный потенциал для политических манипуляций, уничтожения персонажей и фальшивых новостей. В мире, который и так изобилует кампаниями по дезинформации, дипфейки могут стать мощным инструментом в неумелых руках.

Однако, как и большинство технологий, это обоюдоострый меч. Та же технология, которая может создавать злонамеренную политическую пропаганду, может быть использована для сатиры, законного художественного самовыражения или передовой кинематографической технологии. Ответственность заключается в том, как мы решаем ее использовать - и как общество и правоохранительные органы реагируют на злоупотребления.

Вопросы интеллектуальной собственности

Еще один аспект, который следует учитывать, - это права на интеллектуальную собственность (ИС).

Если я загружаю клипы актеров для обучения ИИ-модели, имею ли я на это законное право? Где вступает в игру «добросовестное использование» и как оно пересекается с правом человека контролировать свой образ?

Мы видим первые судебные иски, оспаривающие то, как компании, занимающиеся генеративным ИИ, используют обучающие данные. Например, помните, как Скарлет Йоханссон подала в суд на OpenAI и выразила свое возмущение тем, что голос чат-бота ChatGPT «до жути похож» на ее голос.

В то время, когда мы все сталкиваемся с проблемой подделок и защитой наших собственных изображений, наших собственных работ, наших собственных личностей, я считаю, что эти вопросы заслуживают полной ясности. Я с нетерпением жду решения в виде прозрачности и принятия соответствующих законов, которые помогут обеспечить защиту прав личности.

Вероятно, это лишь вопрос времени, когда мы увидим параллельные судебные процессы, касающиеся видео и данных людей.

Для разработчиков и создателей контента эти вопросы могут стать загадкой. Технологии развиваются быстрее, чем успевают юридические и этические рамки. Сложно контролировать то, как люди используют эту технологию, но пока мы можем сделать только это: Если мы обучаем модель по чьему-то подобию, мы должны четко указать исходный материал и предполагаемое использование полученной модели. Хотя это и не решит всех юридических вопросов, это начало пути к установлению доверия и ответственности.

Проведя бесчисленное количество часов за изучением Hunyuan, LoRA и других инструментов для создания ИИ-видео, я могу с уверенностью сказать, что мы стоим на пороге новой эры в кинематографе, развлечениях и цифровых медиа.

Процесс обучения на Replicate прост и гораздо дешевле, чем на Fal AI, что делает его доступным для всех желающих. Результаты тоже весьма неплохие. Например, модель Роуз из BlackPink действительно похожа на нее, что показывает, насколько точным может быть инструмент.

Перенос лица Киану Ривза с помощью видеомодели Hunyuan - один из самых реалистичных примеров, которые я видел. Лицо выглядит очень реалистично и плавно сливается с фоном. Если присмотреться, есть несколько мелких проблем, например с волосами, но большинство людей их даже не заметят.

Захватывает то, насколько проста эта технология в использовании. Идея вернуть сходство с давно потерянными актерами или даже членами семьи, хотя и немного интригует, но, честно говоря, завораживает.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и канал с советами для тех, кто только учится работать с нейросетями - я стараюсь делиться только полезной информацией.

Комментарии (11)


  1. SuAlUr
    31.01.2025 17:30

    В SwarmUI поддерживается «из коробки».

    https://github.com/mcmonkeyprojects/SwarmUI/blob/master/docs/Video Model Support.md


  1. kenomimi
    31.01.2025 17:30

    Всё это напоминает мне начало фотошопа, которое я застал. Одного сделай в обнимку с Ельциным, другого с актерами Бумера поставь, третий врага в порно просит впилить... Но все очень быстро наигрались, буквально полгода-год и волна схлынула, стало не интересно. Вангую, что генерация видео с актерами, по фото, по описанию, и прочее подобное точно так же даст короткий хайп и уйдет обратно в сферу кинопроката для оживления мертвых артистов, например.

    Зато от этой технологии люди приобретут полный иммунитет к фейкам, и перестанут обращать внимание на такой контент вообще.


    1. PrinceKorwin
      31.01.2025 17:30

      Тут ещё, видится мне, будет проблема нашим детям - если фейки могут быть любые: текстовые, аудио, видео. то каким источникам вообще можно будет доверять?

      Похоже пришло время делать локальные копии флибусты - кажется ценность книг будет только расти со временем.


      1. kenomimi
        31.01.2025 17:30

        В хорошем варианте блокчейны доверия будут, или как это еще назвать. Некая не анонимная подпись, которой гарантируется, что "я свидетель, вот пруф", "я проверил, и вот результат", "это фейк и вот почему", и так далее. Вешается на сообщение/пост/новость в группе. Сирун будет сидеть с отрицательной репутацией, и большинство его посты даже не увидит ввиду фильтров. Возможно, эти цепочки доверия будут даже обеспечены деньгами, как сейчас гаранты даркнета...

        В не очень хорошем возникнет министерство правды, которое будет иметь исключительное право на массовое распространение любой информации, а остальным это будет запрещено серьезной уголовной статьей. Хочешь быть журналистом или иным публичным лицом - проходи аккредитацию, вноси депозит тысяч десять вечнозелеными, и пиши. Попался на лжи, фейке или вбросе - минус депозит, минус аккредитация, и больше последнюю не получишь. Ну, примерно как лицензия на алкоголь - попался на бояре - можно и срок получить. Информация сейчас опаснее бояры, умелыми набросами легко и войну устроить...


        1. funca
          31.01.2025 17:30

          Дети научатся воспринимать любой контент с экрана как иллюзию - которой на самом деле он и является.


          1. dumbaq
            31.01.2025 17:30

            Эпоха дезинформации началась не вчера, не десять лет назад и даже не сотню. Никто не научился воспринимать иллюзии как иллюзии.

            Может быть конечно теперь всё изменится из-за настолько очевидной подмены, но... наверное нет. Не настолько глобально.


          1. arseniy2
            31.01.2025 17:30

            не знаю какие дети научатся этому. у детей наоборот анимизм во всю шпарит(речь не про аниме, хотя и аниме тоже пример того, как дети не умеют в это отличие). у людей нету дефолтных механизмов способных на это. собсно, дефолт это как раз, когда фотография воспринимается, как реальный объект. ну а в прошлом, например, отражение в зеркале или рисунки. откуда всякие сказочные идеи о попадании в мир зазеркалья или оживления картин или магическое влияние через них. уж за тысячи лет люди могли бы понять иллюзию изображения в отражении, картинках, куклах? но ведь не поняли. понимание, что это иллюзии приходит с получением определенных знаний.

            ну и очевидная вещь, если видео, или изображение сгенерированное ИИ, вообще не будет отличаться от реальной съёмки, с какого фига кто-либо или что-либо сможет это отличить на глаз?


            1. sundmoon
              31.01.2025 17:30

              Аналогично ситуации с образованием: многое зависит от индивидуальной мотивации. А кого-то будут учить этому сразу в элитных детских садах...


              1. arseniy2
                31.01.2025 17:30

                я не понял что имелось ввиду, и в чём и чего(из того что я написал) аналогичность с образованием


        1. StriganovSergey
          31.01.2025 17:30

          Я за блокчейны доверия, но... нужно морально готовить людей заранее к обрушению целых каскадов доверия. Поскольку многие люди могут ошибаться, и получится, что можно накапливать ошибку доверия в больших объемах. Что-то вроде массового психоза.
          См. "Обе белые пирамидки". ( док. фильм "я и другие")


          1. arseniy2
            31.01.2025 17:30

            "обе белые пирамидки", "сладкая каша" это примеры где, по крайней мере, разница конкретно перед глазами. и не на всех это действует. с видео генерацией, не отличимой от реальной съемки, такой возможности вообще нету.