Могут ли современные алгоритмы создавать улучшенные версии старой графики видеоигр с более высоким разрешением?
Последние несколько дней я использовал ИИ-генерацию изображений для воспроизведения одного из кошмаров моего детства. Я использовал Stable Diffusion, Dall-E и Midjourney, чтобы посмотреть, как эти инструменты генерации изображений могут помочь улучшить старую визуальную историю - вступительный фильм к старой видеоигре (Nemesis 2 на MSX). В этом посте описывается процесс и мой опыт использования этих моделей для улучшения графики.
Встречайте, доктор Веном
![](https://habrastorage.org/getpro/habr/upload_files/a5f/747/c4a/a5f747c4a223241a21db99c39d981455.png)
Этот симпатичный джентльмен - злодей в видеоигре. Доктор Веном появляется во вступительном ролике видеоигры Nemesis 2, вышедшей в 1987 году. Это изображение, в частности, появляется в драматическом моменте фильма.
Давайте обновим картинки из игры с помощью инструментов визуального генеративного ИИ и посмотрим, кто же будет лучше?
Создаем компьютерную графику заново с помощью AI
Вот вид сбоку на карточках из оригинального кинофильма (левая колонка) и финальные карточки, созданные инструментами ИИ (правая колонка):
![](https://habrastorage.org/getpro/habr/upload_files/2e2/f56/d02/2e2f56d022cf1d909df83dc68eef6ba5.png)
На этом рисунке не показана финальная графика Доктора Венома, потому что я хочу, чтобы вы увидели ее, как это сделал я, в соответствующем контексте и под соответствующую музыку. Вы можете посмотреть это здесь:
Карточка 1
Оригинал
![](https://habrastorage.org/getpro/habr/upload_files/43b/3b0/cb1/43b3b0cb1a7904b27ec56efa8642ecf2.png)
А это сгенерировано Stable Diffusion с помощью Dream Studio:
![](https://habrastorage.org/getpro/habr/upload_files/481/4aa/72c/4814aa72c196d7c0694ffbaada9bb3d9.png)
Однако путь к этому образу проходит через создание более 30 изображений и настройку входных подсказок. Первая подсказка, которую я использовал, выглядит следующим образом:
fighter jets flying over a red planet in space with stars in the black sky
На что DALL-E генерирует следующие изображения:
![](https://habrastorage.org/getpro/habr/upload_files/513/c09/b83/513c09b8376c47c275fe158d12610958.png)
Если вставить аналогичный запрос в Dream Studio, то появятся такие картинки:
![](https://habrastorage.org/getpro/habr/upload_files/ec8/1fa/c49/ec81fac493793563fb27b6fb90362202.png)
Ищем подходящие входные фразы в Lexica
Текущее решение состоит в том, чтобы либо изучить руководство по подсказкам и выучить стили, которые люди находили успешными в прошлом, либо искать в галерее типа Lexica, которая содержит миллионы примеров и соответствующие им подсказки. Я выбираю последний вариант, поскольку изучение заумных ключевых слов, которые будут работать на конкретных версиях конкретных моделей, не является выигрышной стратегией в долгосрочной перспективе.
![](https://habrastorage.org/getpro/habr/upload_files/380/2e1/9f1/3802e19f1467f22c4d8db633b82b4b0b.png)
В итоге я нахожу изображение, которое мне нравится, и редактирую его в соответствии со стилистической частью входной подсказки, чтобы в итоге оно выглядело так:
fighter jets flying over a red planet in space flaming jets behind them, stars on a black sky, lava, ussr, soviet, as a realistic scifi spaceship!!!, floating in space, wide angle shot art, vintage retro scifi, realistic space, digital art, trending on artstation, symmetry!!! dramatic lighting.
MidJourney
Результаты Midjourney всегда отличались особой красотой. Я попробовал использовать оригинальную входную подсказку, содержащую только тему. Результаты были потрясающими.
![](https://habrastorage.org/getpro/habr/upload_files/1a1/883/1d7/1a18831d7cb1e590ea1882a05a3bfb71.png)
Хотя они выглядят невероятно, они не передают суть оригинального изображения так хорошо, как это делает Stable Diffusion. Но это убедило меня попробовать сначала Midjourney для продолжения истории. У меня было большое количество изображений для создания и ограниченное время, чтобы получить хороший результат для каждого.
Карточка 2
Оригинал:
![](https://habrastorage.org/getpro/habr/upload_files/47b/221/a11/47b221a11105b2e59d563d99cc2e6837.png)
Мой результат
![Midjourney prompt: realistic portrait of a single scary green skinned bald man with red eyes wearing a red coat with shoulder spikes, looking from behind the bars of a prison cell, black background, dramatic green lighting --ar 3:2 Midjourney prompt: realistic portrait of a single scary green skinned bald man with red eyes wearing a red coat with shoulder spikes, looking from behind the bars of a prison cell, black background, dramatic green lighting --ar 3:2](https://habrastorage.org/getpro/habr/upload_files/e56/716/bef/e56716bef6b52a7ed2d0b41e120386c0.png)
Карточка 3
Оригинал
![](https://habrastorage.org/getpro/habr/upload_files/d1d/9ab/1be/d1d9ab1bec11f345bacc7f42e918c7ed.png)
Мой результат
![Midjourney prompt: massive advanced space fighter jet schematic blueprint on a black background, different cross-sections and perspectives, blue streaks and red missles, star fighter , vic viper gradius --ar 3:2 Midjourney prompt: massive advanced space fighter jet schematic blueprint on a black background, different cross-sections and perspectives, blue streaks and red missles, star fighter , vic viper gradius --ar 3:2](https://habrastorage.org/getpro/habr/upload_files/2f5/e02/c7c/2f5e02c7c139270c10d0b7c6d7176361.png)
Midjourney действительно передает крутость многих схем истребителей. Текст не будет иметь смысла, но это может сработать в вашу пользу, если вы хотите создать что-то инопланетное.
При такой работе будет трудно воспроизвести тот же самолет в последующих рисунках.
Карточка 4
Оригинал
![](https://habrastorage.org/getpro/habr/upload_files/6ed/0c0/f06/6ed0c0f067a5de90c6c3d6d0ac7195d6.png)
Результат
![Midjourney prompt: front close-up of the black eyes of a space pilot Mr. James Burton peering through the visor of a white helmet, blue lighting, the stars reflected on the glass --ar 3:2 Midjourney prompt: front close-up of the black eyes of a space pilot Mr. James Burton peering through the visor of a white helmet, blue lighting, the stars reflected on the glass --ar 3:2](https://habrastorage.org/getpro/habr/upload_files/2ff/ba9/53d/2ffba953d65db1036279cae5da52ec97.png)
Это изображение предоставило отличную возможность опробовать инструмент DALL-E outpainting для расширения холста и заполнения окружающего пространства контентом.
Увеличиваем холст с Dalle
Допустим мы остановились на следующем изображении
![](https://habrastorage.org/getpro/habr/upload_files/d14/011/1bd/d140111bdef2d69fdaf3bdfedc71c1d6.png)
Мы можем загрузить его в редактор DALL-E и расширять холст вокруг основного изображения (принимая во внимание часть изображения, чтобы сохранить некоторую преемственность).
![](https://habrastorage.org/getpro/habr/upload_files/9c6/da7/3d0/9c6da73d00ca3d94d57523e5d0aacf47.jpeg)
Процесс outpainting отличается от text2image тем, что подсказка должна быть изменена для описания описываемой части в каждой части изображения.
Мои впечатления от текущих моделей генерации изображений
Прошло несколько месяцев с тех пор, как подавляющее большинство людей получили широкий доступ к инструментам генерации изображений с помощью ИИ. Основной вехой здесь является выпуск Stable Diffusion с открытым исходным кодом (хотя некоторые люди имели доступ к DALL-E и раньше, а такие модели, как OpenAI GLIDE, были общедоступными, но более медленными и менее способными). За это время я успел воспользоваться тремя из этих сервисов генерации изображений.
Dream Studio
![Stable Diffusion v2.1 prompt: Two astronauts exploring the dark, cavernous interior of a huge derelict spacecraft, digital art, neon blue glow, yellow crystal artifacts Stable Diffusion v2.1 prompt: Two astronauts exploring the dark, cavernous interior of a huge derelict spacecraft, digital art, neon blue glow, yellow crystal artifacts](https://habrastorage.org/getpro/habr/upload_files/683/83a/353/68383a353fb3bc42728aafe4475ae3d3.png)
Это то, что я использовала больше всего за последние несколько месяцев.
Плюсы
Есть API, поэтому легко получить доступ к моделям. Ключевой момент для расширения возможностей и создания более продвинутых систем, использующих компонент генерации изображений.
Тот факт, что Stable Diffusion имеет открытый исходный код, является еще одним весомым аргументом. Оригинальная модель может быть использована в качестве прототипа, но при этом вы знаете, что если ваши изображения требуют тонкой настройки вашей собственной модели, вы можете вернуться к версиям с открытым исходным кодом.
На данный момент лучший пользовательский интерфейс с наибольшим количеством опций
Минусы
Dream Studio по-прежнему не хранит историю всех изображений, созданных пользователем.
Старые версии Stable Diffusion (например, 1.4 и 1.5) по-прежнему дабт лучшие результаты (в этом помогают галереи вроде Lexica). Более новые модели, похоже, все еще осваиваются сообществом.
MidJourney
![Midjourney v4 prompt: Two astronauts exploring the dark, cavernous interior of a huge derelict spacecraft, digital art, neon blue glow, yellow crystal artifacts --ar 3:2 Midjourney v4 prompt: Two astronauts exploring the dark, cavernous interior of a huge derelict spacecraft, digital art, neon blue glow, yellow crystal artifacts --ar 3:2](https://habrastorage.org/getpro/habr/upload_files/e7e/8a5/7e5/e7e8a57e56b44aeaf12d07072585895e.png)
Плюсы
Безусловно, лучшее качество генерации при наименьшем количестве настроек
Сохраняется история всех генераций
Есть витрина генераций всего сообщества
Минусы
Доступ к генерации через Discord это ужасно
Пользовательского интерфейса по факту нет
Нет API
DALL-E
![One generation plus two outpainting generations to expand the sides. DALL-E prompt: Two astronauts exploring the dark, cavernous interior of a huge derelict spacecraft, digital art, neon blue glow, yellow crystal artifacts
One generation plus two outpainting generations to expand the sides. DALL-E prompt: Two astronauts exploring the dark, cavernous interior of a huge derelict spacecraft, digital art, neon blue glow, yellow crystal artifacts](https://habrastorage.org/getpro/habr/upload_files/d8f/14f/c40/d8f14fc40fe87d3f3c23faf5cef7c1d2.png)
Плюсы
DALL-E первый алгоритм который показал миру возможности генеративного ИИ
Поддержка inpainting и outpainting технологий
Сохраняется история генерации изображений
Есть API
Минусы
Медленнее, чем Stable Diffusion
Поскольку он отстает от Midjourney по качеству изображений, и от Stable Diffusion по принятию сообществом и инструментарию (по моему мнению), я не нашел причин тратить много времени на изучение DALL-E
Нет API
Тем не менее, не стоит сбрасывать со счетов DALL-E. OpenAI - настоящие пионеры, и я ожидаю, что следующие версии модели значительно улучшат качество генерации.
Еще больше примеров использования ML в современных сервисах можно посмотреть в моем телеграм канале. Я пишу про ML, стартапы и релокацию в UK для IT специалистов.
diogen4212
попробовал img2img в Stable Diffusion с оригинальной картинкой в основе. Промты как в этой статье с некоторыми изменениями
(не играл в оригинальную игру, но кажется, Mr. James Burton не человек, а какая-то змея с синей кожей. И на первой картинке выхлопы ракетных двигателей или какие-то красные скалы? )
вторая больше подходит по смыслу, но первая больше понравилась