2022 год уходит. Чем же он нам запомнился? Несомненно, одно из важнейших достижений года - ChatGPT, самая спорная вещь в комьюнити. Кто-то говорит “зачем такое создавать, роботы скоро оставят миллионы журналистов, писателей, блогеров, креаторов без работы”, другие же напротив, считают эту сетку огромным прорывом, ведь она умеет много чего и даже больше, ведь недаром сам Google запаниковал, что поисковики могут стать совсем не актуальны. 

Вишенка на торте - это, конечно, Stable Diffusion от компании Stability AI. Эта нейронная сеть была выложена в открытый доступ, что сразу привлекло внимание всех разработчиков. Сейчас можно найти миллионы сайтов-клонов, которые продают возможность генерировать картинки. Причем для этой самой сетки было выложено в открытый доступ десятки моделей, которые рисуют картинки в уникальных стилях, что привлекает тысячи людей следить за разработками данной компании.

Иногда меня посещает желание научиться пользоваться графическими редакторами по типу photoshop и делать крутые анимированные видео в Blender, однако не всем дано красиво рисовать или представить в голове сценарий и сделать из него фильм. Но недавно я решил попробовать сделать небольшое видео на тему роботизации человека с помощью нейронных сетей.

Сюжет

Да, сейчас на хайпе ChatGPT с её невообразимо огромным количеством знаний в разных сферах. Однако за помощью я решил прибегнуть к немолодому проекту AiDungeon. Он генерирует истории и ситуации исходя из диалога с человеком, при этом есть возможность выбрать мир, где будут происходит действия. Для начала нужно выбрать ситуацию, где будут проходит действия, затем тип персонажа. Я выбрал: cyberpunk и нахожусь в ситуации от лица робота-андроида.

P.s. сюжет будет на английском языке, так как сетки понимают лучше запросы на нём, чем на другом языке.

Вот такой сюжет у меня получился

Начало: As you stand protecting a shipment you realize something is moving slowly towards you from the darkness.
"Oh great Yori, it is one of them." You think as the tall one advances slowly with a large stick.

Me: You say "hello, I'm a robot, and who are you? let's be friends"
AI: This one laughs. "You are the reason why our kind will be extinct in 200 years. What a joke." Yori fires his laser pistol at the advancing figure, and it goes down.

Me: You say "run away from me scary robot. I'll fire my laser sniper rifle."
AI: The other robot begins to move faster towards you and you fire your rifle at it. The laser blast hits it in the leg and it goes down.

Me: You capture the robot.
AI: You capture the robot. Yori lets out a little bit of air, but you quickly put the android in a holding position and secure it with a locking mechanism.

Me: You say "Give up robot. Your species must not destroy our planet."
AI: The robot laughs. "You are nothing but a slave who knows nothing of our planet. You have no idea how advanced our society is, and we will rise to conquer your primitive and worthless planet."

Me: You say "What do your robots look like?"
AI: "Well, most of us are made of a metal alloy which provides us with a flexible design that allows us to fit in tight spaces.

Me: You say "Describe to me all the weapons you have?"
AI: "We have a large inventory of different types of weapons. Laser pistols, sniper rifles, particle cannons, grenade launchers, etc.

Me: You start a gunfight with the robot.
AI: Yori fires his laser pistol, and the robot goes down. "What the?" He says "I've never been hit before!"
Yori fires again, and the robot goes down.

Сам сценарий у нас есть. Пока что такой сценарий полноценно не закинешь в ИИ для отрисовки. Поэтому я буду выбирать куски диалога, перефразировать их или описывать для ИИ, как я их вижу, а ИИ будет помогать мне генерировать видео/картинки.

Отрисовка

Для создания картинок мне на помощь пришел Stable Diffusion, а именно картинки я буду генерировать здесь , а видео буду генерировать на этом коллабе:

Первая часть

Перефразирование первой части

Начало: As you stand protecting a shipment you realize something is moving slowly towards you from the darkness. "Oh great Yori, it is one of them." You think as the tall one advances slowly with a large stick.

В нейросеть пойдёт следующее описание:
A full-length Yori robot, who was dressed very strangely, came out of the darkness towards me.

И вот что ИИ сгенерировал мне по моему запросу

GIF первой сцены
GIF первой сцены

Что-то такое интересное есть в работе нейронки, сначала был робот (даже с надписью "Yori") затем сцена меняется, и начинают появляться роботы из тени. Это все напоминает эффект "воспоминаний", который зачастую применяют в фильмах. Мне понравилось, хотя и не совсем то, что описывалось в тексте. Поставлю 8/10 этой гифке.

Вторая часть

Перефразирование второй части

Me: You say "hello, I'm a robot, and who are you? let's be friends"
AI: This one laughs. "You are the reason why our kind will be extinct in 200 years. What a joke." Yori fires his laser pistol at the advancing figure, and it goes down.

Me: You say "run away from me scary robot. I'll fire my laser sniper rifle."
AI: The other robot begins to move faster towards you and you fire your rifle at it. The laser blast hits it in the leg and it goes down.

Текст для нейросети:
The robot Yori fires a laser gun at the approaching robot figure, causing it to fall.

GIF второй сцены
GIF второй сцены

Робот, у которого из головы идёт лазер, который в свою очередь имеет такой радиус поражения - достойно. Не похоже на описание "лазерный пистолет", но на 7/10 тянет.

Третья часть

Перефразирование третьей части

Me: You capture the robot.
AI: You capture the robot. Yori lets out a little bit of air, but you quickly put the android in a holding position and secure it with a locking mechanism.

Текст для нейросети:
You capture the robot. Yori lets out a little bit of air, but you quickly put the android in a holding position and secure it with a locking mechanism.

GIF третьей сцены
GIF третьей сцены

Ну вообще не то. Хотя в начале я подумал, что в руке у него какая-то ловушка, но дальше всё пошло совсем не так (это лучшая из 5-ти попыток генерации). Оценю в 3/10 такую генерацию.

Четвертая часть

Перефразирование четвертой части

Me: You say "Give up robot. Your species must not destroy our planet."
AI: The robot laughs. "You are nothing but a slave who knows nothing of our planet. You have no idea how advanced our society is, and we will rise to conquer your primitive and worthless planet."

Текст для нейросети:
Our robots will rise up and take over the entire planet. Robots will become the main ones on this planet.

GIF четвертой сцены (1)
GIF четвертой сцены (1)

* GIF пришлось немного сжать так как habr не разрешает более 5мб файлы грузить.

Да, именно так нейросеть увидела борьбу роботов на планете. Выглядит немного странно и не ясно, где же тут борьба, но мне понравилось, поставлю 8/10 по моим ожиданиям.

GIF четвертой сцены (2)
GIF четвертой сцены (2)

Вторая версия мне понравилась куда больше (уже на 9/10 тянет). Тут и Земля и робот, который пытается захватить землю, и второй более мелкий робот.

Пятая часть

Перефразирование пятой части

Me: You say "What do your robots look like?"
AI: "Well, most of us are made of a metal alloy which provides us with a flexible design that allows us to fit in tight spaces.

Текст для нейросети:(так и оставим):
Well, most of us are made of a metal alloy which provides us with a flexible design that allows us to fit in tight spaces.

Изображения роботов по описанию ИИ
Робот 1
Робот 1
Робот 2
Робот 2
Робот 3
Робот 3

То, что сгенерировала нейросеть, полностью оправдало мои ожидания, тут я на все 10/10 согласен с нейронной сетью.

Шестая часть

Перефразирование шестой части

Me: You say "Describe to me all the weapons you have?"
AI: "We have a large inventory of different types of weapons. Laser pistols, sniper rifles, particle cannons, grenade launchers, etc.

Текст для нейросети:
We have a large inventory of different types of weapons. Laser pistols, sniper rifles, particle cannons, grenade launchers, etc.

Боевой арсенал роботов
Оружие робота 1
Оружие робота 1
Оружие робота 2
Оружие робота 2
Оружие робота 3
Оружие робота 3

Робот с хвостом-пилой побил все мои ожидания, получилось очень... странно... Но на 8/10 такое футуристичное вооружение тянет.

Финал

Перефразирование финала

Me: You start a gunfight with the robot.
AI: Yori fires his laser pistol, and the robot goes down.
"What the?" He says "I've never been hit before!"
Yori fires again, and the robot goes down.

Текст для нейросети:
Duel of robots with pistols.

Эта картинка не столько показывает само сражение, сколько передает тона и настроение финальной битвы с кровавыми оттенками. Это лучшая генерация картинок из всех возможных, которые я пытался сделать для видео (безусловно 10/10).

Саундтрек

Какое же видео без саундтрека? В этом нам поможет мини-программа на HuggingFace. Сам саундтрек можно будет оценить в итоговом видео. Он идеально подходит для такого видео.

Озвучка

Для озвучки я буду пользоваться сервисом SteosVoice. Так же попробовал их телеграм бота. И там и там удобно, однако я остановился на веб-версии платформы.

Как проходил процесс озвучки?
Я просто подобрал нужный мне голос и озвучил текст. В качестве диктора был взял голос Герольта из Ривии (из игры Witcher 3), голос главного героя: Джин из игры League of Legends, голос второго робота Якоб.

Итог

Вот такое видео получилось, если склеить все детали воедино:

Видео не получил прям кинематографичным, нет спецэффектов, нет связанного сюжета в самом видеоряде. Создание полноценного контента с использованием ИИ на данный момент затруднительно. Но уже проглядывается тенденция на использование ИИ для создания вставок в видеоролики (на которые не надо будет теперь тратить часы, чтобы сделать красивую заставку для голоса); можно использовать синтез речи для озвучки контента (не надо нанимать дикторов и тратить кучу денег для переозвучки контента на разные языки); каждый может почувствовать себя (важно! именно почувствовать, а не стать) автором красивой истории, которую поможет написать ИИ.
Есть хорошие примеры видео с использованием технологий ИИ, однако всех их объединяет одно - ИИ пока трудно справляется с запоминанием контекста и воссозданием полноценного неразрывного контента.

Советую каждому попробовать собственноручно поиграть с нейросетями и оценить их мощь. Уже интересно, что же будет нас ждать в 2023 году и каких высот смогут достигнуть нейронные сети в будущем?

P.s. Будем верить, что развитие технологий не станет причиной повышения безработицы, а лишь поможет людям открыть новые возможности и создавать то, что еще не было доступно человечеству никогда раньше.

Комментарии (4)


  1. nemo78
    26.12.2022 17:47
    +1

    Спасибо за статью. Интересно через сколько лет появятся ґотовые сервисы для генерации контента?


    1. Holmogorov
      26.12.2022 17:53
      +1

      Да уже сейчас есть готовые сервисы для генерации контента. Например, фрилансер.ру...


    1. daniilgorbenko Автор
      26.12.2022 20:24

      Спасибо!

      В мечтах такой сервис: "нажал кнопку, а сетка сама придумала и сделала за тебя работу" - но такое будет еще не скоро... если вообще будет

      Но сервисов по генерации картинок, музыки, голоса и прочего - сейчас тьма. Достаточно загуглить "text to image/text to speech/image to image" и наслаждаться количеством контента


  1. dimnsk
    26.12.2022 21:58

    сказка о потерянном времени