Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков / forpes.ru

Главная
Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков

Альфа-тестирование MidJourney V5: научилась ли нейросеть рисовать руки и неоновых котиков +61

17.03.2023 12:34

Firemoon 15 9300 Источник

Недавно я писал инструкцию-обзор на четвертую версию алгоритма MidJourney. Спустя всего два месяца нам предложили альфа-версию пятой версии алгоритма. В v5 предлагают большую реалистичность и более тонкую настройку. Зачем откладывать удовольствие, давайте взглянем!

Дисклеймер: данная статья написана по первой альфа-версии алгоритма v5. В процессе разработки стиль и доступная функциональность может меняться.

Используйте навигацию, если не хотите читать текст полностью:

→ Сухие факты
→ Эксперименты
→ Генерационные челленджи
→ Заключение

Сухие факты

Сперва пробежимся по анонсу от разработчиков MJ. Вот что поменялось:

Расширен список стилей, в которых может рисовать нейронная сеть. Нейронная сеть более чутко относится к запросу.
Увеличено разрешение генерируемых изображений. Разрешение изображений v5 равно разрешению увеличенных (upscaled) изображений v4.
Больше деталей и меньше текста.
Добавлена поддержка параметра --tile, генерирующего изображения в виде тайлов с бесшовным переходом.
Добавлена поддержка не квадратного соотношения сторон через аргумент --ar.
Добавлена поддержка весов для изображений через аргумент --iw.
Увеличение изображений (upscale) на данный момент отключено.

Разработчики MJ отдельно упоминают, что v5 имеет меньше «собственного мнения», поэтому требует более длинных и обстоятельных описаний, а на коротких запросах могут возникнуть проблемы.

Хотя в анонсе разработчиков указано, что производительность повышена, картинки на пятой версии алгоритма генерируются в два раза дольше, то есть примерно минуту. Вероятно, это связано с высоким разрешением картинки.

Эксперименты

Начнем с простого запроса, который сравнивал v3 и v4 в прошлой статье.

Запрос: stars world time

Слева направо: третья, четвертая, пятая версии (здесь и далее по ссылкам — фулсайзы картинок).

Изображения v5 кажутся более сдержанными. К сожалению, сдержанность пятой версии алгоритма поставила крест на легкой генерации красочных неоновых котов, которые мне так полюбились.

Слева: запрос — neon cat. Справа: запрос — painted neon cat with green light.

Сдержанность — это достойная цена за повышенный реализм в генерации.

Запрос: woman portrait soft sunset light --seed 2131932819

Слева — четвертая версия MJ. Справа — пятая.

Провел опрос в своем Telegram-канале, какая генерация нравится моим подписчикам больше. Подавляющее большинство голосов — за более реалистичную версию. А какая нравится вам? Пишите в комментариях. И подписывайтесь на мое канал — рассказываю там о своих экспериментах.

Запрос: circuit of processor inside

Слева — четвертая версия. Справа — пятая.

На этом хватит случайных изображений, посмотрим, как MJv5 поборолась с некоторыми особенностями своей предшественницы.

Генерационные челленджи

Метки «качества» и количества

Ранее я аргументированно убеждал, что «магические» слова вроде «beautiful» ничего не решают и минимально влияют на итоговое изображение. Отныне это не так. Новая версия более чутко воспринимает написанное, и теперь эти магические слова действительно влияют.

Основной запрос: woman portrait --seed 2131932819

Слева направо: без дополнительных слов; beautiful; beautiful 8k octane unreal realistic.

Слева направо (генерации в v5): без дополнительных слов; beautiful; beautiful 8k octane unreal realistic.

Наличие или отсутствие дополнительных слов существенно меняет визуальный стиль итогового изображения. Так, наличие в запросе слова «portrait» может быть трактовано как запрос художественного стиля, а «octane» генерирует как будто скриншоты из ААА-игры.

Запрос: nine cats

Слева — четвертая версия. Справа — пятая.

С числительными новая версия алгоритма справляется лучше, хотя все еще затрудняется нарисовать правильное количество объектов. Но зато больше нет насмехающейся цифры 9 на шестом коте.

Нейросети не умеют рисовать конечности

Запрос: beautiful woman hand with five fingers

Слева — четвертая версия. Справа — пятая.

Запрос: beautiful woman hand with ring

Слева — четвертая версия. Справа — пятая.

MJv5 все так же ошибается при генерации человеческих рук, но итоговое изображение не имеет пугающих элементов. Можно ли считать это революцией в генерации изображений рук? Нет, но прогресс, определенно, есть.

Генерация широкоформатных изображений

На момент написания прошлой статьи четвертая версия алгоритма умела генерировать только квадратные изображения. Спустя месяц добавили поддержку соотношений 1:2 и 2:1, но я, как пользователь монитора с соотношением сторон 21:9 и телефона с соотношением сторон экрана 9:21, недоволен невозможностью генерировать обои на рабочий стол.

Запрос: nature landscape --ar 21:9

Сверху — третья версия. Снизу — пятая.

Запрос: cyberpunk city --v 5 --ar 21:9

Сверху — третья версия. Снизу — пятая.

Третье поколение алгоритма в некоторых случаях генерирует вытянутую картинку как смесь из нескольких квадратных Это заметно на изображении из запроса cyberpunk city, где есть некоторая симметрия относительно центральной вертикали, а в ландшафте видно две возвышенности, также симметрично расположенные.

Криповый, но более показательный пример

Запрос: beautiful woman portrait --ar 32:9

Сверху — третья версия. Снизу — пятая.

Пятая версия алгоритма избавилась от этого недостатка, но появился новый: иногда при генерации появляются черные полосы, которые «корректируют» изображение до другого соотношения сторон.

Запрос: city landscape --ar 50:9 --v 5

Фулсайз.

К слову, v3 неявно ограничивала вытянутость картинки и при генерации 32:9 полученный результат был похож скорее на 21:9. MJv5 же способна генерировать даже 100:9. Осталось найти такой монитор.

Генерация тайлов

Запрос: stone texture --tile --v 5

Фулсайз.

В MidJourney v5 добавили экспериментальную опцию: создание тайлов. Тайлы — это картинки, которыми можно бесшовно заполнить плоскость. Такой режим подойдет при разработке, например, игр, для быстрого создания повторяющихся текстур. ~~Ну и набор ресурсов (Texture Pack) для Minecraft.~~

Возможно, эти тексты тоже вас заинтересуют:

→ Больше одноплатников, производительных и специализированных: 5 нужных многим моделей, которые появились в марте
→ Конфигуратор и PostgreSQL: что под капотом 1С PaaS-решения для организации работы в облаке
→ Как работают объектные хранилища: OpenStack Swift

Заключение

Пока весь мир следит за текстовыми моделями, прогресс txt2img-моделей не стоит на месте. Мне очень грустно, что пятое поколение алгоритма не дружит с неоновыми котами. Тем не менее, даже в альфа-версии MidJourney v5 предлагает что-то новое и вновь погружает в магию генераций изображений, что не может не радовать.

Удалось ли вам уже протестировать пятую версию? Какие впечатления от изменений? Пишите в комментариях!

Комментарии (15)

Proydemte
00.00.0000 00:00
#25337394
К сожалению, сдержанность пятой версии алгоритма поставила крест на легкой генерации красочных неоновых котов, которые мне так полюбились.
Может быть надо сказать правильное заклинание и тогда будет использоваться подобный стиль?

Надо запилить сервис, который будет с дискордовских серверов качать картинки и текст генерации — и потом сделать поиск по изображению. Тогда изображение загружаешь, оно тебе находит похожие и слова которы были произнесены.
1. f614
  00.00.0000 00:00
  #25337558
  Обычно пользуюсь этим для поиска промтов по картинке, полагаю это то, что вы имеете ввиду.
  lexica.art
  1. Proydemte
    00.00.0000 00:00
    #25337586
    Ну да, типа такого, но по ходу там только stable diffusion и нету опции того какая версия сгенерировала картинку.
    
    Кстати интересно, по идее же не должно быть сильно сложно натренировать верификационную модель, на количество и правильность пальцев и зубов, после генерации проверяем что пальцы, зубы, глаза правильные и если нет, то отбрасываем.
    
    whereismyhome
    00.00.0000 00:00
    #25337910
    это есть на официальном сайте, но фуловый список этих картинок с промптами могут смотреть только платники

Laurenande
00.00.0000 00:00
#25337560
+1
раньше мне не хватало для реализации своих идеи, картинок (ассетов и ui-элементов), а теперь с нейронками боюсь будет не хватать времени на то что реализовать все свои проекты
10 котиков из 10
1. Proydemte
  00.00.0000 00:00
  #25337610
  +1
  Так вы подключите gpt4, он там из набросков в углу салфетки
  сам всё реализует
  
  (шутка если что)

atepaevm
00.00.0000 00:00
#25337690
+4
Спасибо за отличную статью!

Saffira
00.00.0000 00:00
#25338484
+1
Спасибо за статью!

Подскажите пожалуйста где можно посмотреть инструкцию как делать запросы нейросети?)
1. Starche
  00.00.0000 00:00
  #25338860
  +4
  Можно спросить у chat GPT
1. daager
  00.00.0000 00:00
  #25341878
  Очень подробно и немного короче.

acsent1
00.00.0000 00:00
#25339580
+3
Что то версионирование похоже как в современных браузерах. Особой разницы не видно

Antra
00.00.0000 00:00
#25346658
А нет ли (не появилось ли) в MJ чего-то типа inpaint в SD? Ну чтобы на неудавшейся кисти просто закрасить лишний палец и попросить только этот участок перегенерировать нормально?
1. Firemoon Автор
  00.00.0000 00:00
  #25347366
  К сожалению, Inpaint/Outpaint не завезли.
  
  И пока нет надежд, что завезут, так как интерфейс дискорда не очень удобен для таких задач.

altman
00.00.0000 00:00
#25353450
Котики с КДПВ реальны? Откуда это?
1. Firemoon Автор
  00.00.0000 00:00
  #25353892
  Котики с КДПВ — это генерация MJv5 по запросу, который можно перевести как "коты в серверной комнате"