Недавно я писал инструкцию-обзор на четвертую версию алгоритма MidJourney. Спустя всего два месяца нам предложили альфа-версию пятой версии алгоритма. В v5 предлагают большую реалистичность и более тонкую настройку. Зачем откладывать удовольствие, давайте взглянем!
Дисклеймер: данная статья написана по первой альфа-версии алгоритма v5. В процессе разработки стиль и доступная функциональность может меняться.
Используйте навигацию, если не хотите читать текст полностью:
→ Сухие факты
→ Эксперименты
→ Генерационные челленджи
→ Заключение
Сухие факты
Сперва пробежимся по анонсу от разработчиков MJ. Вот что поменялось:
- Расширен список стилей, в которых может рисовать нейронная сеть. Нейронная сеть более чутко относится к запросу.
- Увеличено разрешение генерируемых изображений. Разрешение изображений v5 равно разрешению увеличенных (upscaled) изображений v4.
- Больше деталей и меньше текста.
- Добавлена поддержка параметра --tile, генерирующего изображения в виде тайлов с бесшовным переходом.
- Добавлена поддержка не квадратного соотношения сторон через аргумент --ar.
- Добавлена поддержка весов для изображений через аргумент --iw.
- Увеличение изображений (upscale) на данный момент отключено.
Разработчики MJ отдельно упоминают, что v5 имеет меньше «собственного мнения», поэтому требует более длинных и обстоятельных описаний, а на коротких запросах могут возникнуть проблемы.
Хотя в анонсе разработчиков указано, что производительность повышена, картинки на пятой версии алгоритма генерируются в два раза дольше, то есть примерно минуту. Вероятно, это связано с высоким разрешением картинки.
Эксперименты
Начнем с простого запроса, который сравнивал v3 и v4 в прошлой статье.
Запрос: stars world time
Слева направо: третья, четвертая, пятая версии (здесь и далее по ссылкам — фулсайзы картинок).
Изображения v5 кажутся более сдержанными. К сожалению, сдержанность пятой версии алгоритма поставила крест на легкой генерации красочных неоновых котов, которые мне так полюбились.
Слева: запрос — neon cat. Справа: запрос — painted neon cat with green light.
Сдержанность — это достойная цена за повышенный реализм в генерации.
Запрос: woman portrait soft sunset light --seed 2131932819
Слева — четвертая версия MJ. Справа — пятая.
Провел опрос в своем Telegram-канале, какая генерация нравится моим подписчикам больше. Подавляющее большинство голосов — за более реалистичную версию. А какая нравится вам? Пишите в комментариях. И подписывайтесь на мое канал — рассказываю там о своих экспериментах.
Запрос: circuit of processor inside
Слева — четвертая версия. Справа — пятая.
На этом хватит случайных изображений, посмотрим, как MJv5 поборолась с некоторыми особенностями своей предшественницы.
Генерационные челленджи
Метки «качества» и количества
Ранее я аргументированно убеждал, что «магические» слова вроде «beautiful» ничего не решают и минимально влияют на итоговое изображение. Отныне это не так. Новая версия более чутко воспринимает написанное, и теперь эти магические слова действительно влияют.
Основной запрос: woman portrait --seed 2131932819
Слева направо: без дополнительных слов; beautiful; beautiful 8k octane unreal realistic.
Слева направо (генерации в v5): без дополнительных слов; beautiful; beautiful 8k octane unreal realistic.
Наличие или отсутствие дополнительных слов существенно меняет визуальный стиль итогового изображения. Так, наличие в запросе слова «portrait» может быть трактовано как запрос художественного стиля, а «octane» генерирует как будто скриншоты из ААА-игры.
Запрос: nine cats
Слева — четвертая версия. Справа — пятая.
С числительными новая версия алгоритма справляется лучше, хотя все еще затрудняется нарисовать правильное количество объектов. Но зато больше нет насмехающейся цифры 9 на шестом коте.
Нейросети не умеют рисовать конечности
Запрос: beautiful woman hand with five fingers
Слева — четвертая версия. Справа — пятая.
Запрос: beautiful woman hand with ring
Слева — четвертая версия. Справа — пятая.
MJv5 все так же ошибается при генерации человеческих рук, но итоговое изображение не имеет пугающих элементов. Можно ли считать это революцией в генерации изображений рук? Нет, но прогресс, определенно, есть.
Генерация широкоформатных изображений
На момент написания прошлой статьи четвертая версия алгоритма умела генерировать только квадратные изображения. Спустя месяц добавили поддержку соотношений 1:2 и 2:1, но я, как пользователь монитора с соотношением сторон 21:9 и телефона с соотношением сторон экрана 9:21, недоволен невозможностью генерировать обои на рабочий стол.
Запрос: nature landscape --ar 21:9
Сверху — третья версия. Снизу — пятая.
Запрос: cyberpunk city --v 5 --ar 21:9
Сверху — третья версия. Снизу — пятая.
Третье поколение алгоритма в некоторых случаях генерирует вытянутую картинку как смесь из нескольких квадратных Это заметно на изображении из запроса cyberpunk city, где есть некоторая симметрия относительно центральной вертикали, а в ландшафте видно две возвышенности, также симметрично расположенные.
Криповый, но более показательный пример
Пятая версия алгоритма избавилась от этого недостатка, но появился новый: иногда при генерации появляются черные полосы, которые «корректируют» изображение до другого соотношения сторон.
Запрос: city landscape --ar 50:9 --v 5
Фулсайз.
К слову, v3 неявно ограничивала вытянутость картинки и при генерации 32:9 полученный результат был похож скорее на 21:9. MJv5 же способна генерировать даже 100:9. Осталось найти такой монитор.
Генерация тайлов
Запрос: stone texture --tile --v 5
Фулсайз.
В MidJourney v5 добавили экспериментальную опцию: создание тайлов. Тайлы — это картинки, которыми можно бесшовно заполнить плоскость. Такой режим подойдет при разработке, например, игр, для быстрого создания повторяющихся текстур.
Возможно, эти тексты тоже вас заинтересуют:
→ Больше одноплатников, производительных и специализированных: 5 нужных многим моделей, которые появились в марте
→ Конфигуратор и PostgreSQL: что под капотом 1С PaaS-решения для организации работы в облаке
→ Как работают объектные хранилища: OpenStack Swift
Заключение
Пока весь мир следит за текстовыми моделями, прогресс txt2img-моделей не стоит на месте. Мне очень грустно, что пятое поколение алгоритма не дружит с неоновыми котами. Тем не менее, даже в альфа-версии MidJourney v5 предлагает что-то новое и вновь погружает в магию генераций изображений, что не может не радовать.
Удалось ли вам уже протестировать пятую версию? Какие впечатления от изменений? Пишите в комментариях!
Комментарии (15)
Laurenande
00.00.0000 00:00+1раньше мне не хватало для реализации своих идеи, картинок (ассетов и ui-элементов), а теперь с нейронками боюсь будет не хватать времени на то что реализовать все свои проекты
10 котиков из 10Proydemte
00.00.0000 00:00+1Так вы подключите gpt4, он там из набросков в углу салфетки
сам всё реализует(шутка если что)
Saffira
00.00.0000 00:00+1Спасибо за статью!
Подскажите пожалуйста где можно посмотреть инструкцию как делать запросы нейросети?)
acsent1
00.00.0000 00:00+3Что то версионирование похоже как в современных браузерах. Особой разницы не видно
Antra
00.00.0000 00:00А нет ли (не появилось ли) в MJ чего-то типа inpaint в SD? Ну чтобы на неудавшейся кисти просто закрасить лишний палец и попросить только этот участок перегенерировать нормально?
Firemoon Автор
00.00.0000 00:00К сожалению, Inpaint/Outpaint не завезли.
И пока нет надежд, что завезут, так как интерфейс дискорда не очень удобен для таких задач.
Proydemte
Надо запилить сервис, который будет с дискордовских серверов качать картинки и текст генерации — и потом сделать поиск по изображению. Тогда изображение загружаешь, оно тебе находит похожие и слова которы были произнесены.
f614
Обычно пользуюсь этим для поиска промтов по картинке, полагаю это то, что вы имеете ввиду.
lexica.art
Proydemte
Ну да, типа такого, но по ходу там только stable diffusion и нету опции того какая версия сгенерировала картинку.
Кстати интересно, по идее же не должно быть сильно сложно натренировать верификационную модель, на количество и правильность пальцев и зубов, после генерации проверяем что пальцы, зубы, глаза правильные и если нет, то отбрасываем.
whereismyhome
это есть на официальном сайте, но фуловый список этих картинок с промптами могут смотреть только платники