Всем привет! В своей деятельности я иногда использую нейросети, создающие изображения. Они постоянно обновляются, поэтому такие сравнения быстро устаревают. Не так давно Midjourney получил версию 6.1, в начале месяца Flux Pro обновился до 1.1, и вот на днях вышел Stable Diffusion 3.5.
В этой статье я хочу сравнить их, используя 10 разнообразных промптов, чтобы и для себя, и для вас прояснить их различия и определить, кто из них лучше. Для генерации изображений в этих нейросетях я буду использовать телеграм-бота @bratuha2bot которым периодически пользуюсь.
Сразу хочу заметить, Midjourney всегда выдает 4 изображения, поэтому я решила не добавлять все 4, а выбрать 1 самое интересное на мой взгляд.
Итак, давайте начнем!
Промпт: A serene landscape at sunrise, featuring a calm lake reflecting the vibrant colors of the dawn, surrounded by majestic mountains that rise dramatically against the colorful sky, with gentle mist rising softly off the water, and a lone swan gliding gracefully across the surface, creating a sense of tranquility and peace in nature. 16:9
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: A highly realistic portrait of a young woman with long, flowing hair cascading down her shoulders, captured in soft natural lighting that highlights her delicate features, her expressive eyes reflecting a world of emotion and depth, adorned with minimal and tasteful makeup, and wearing a delicate floral dress that complements her radiant smile, creating an inviting and warm atmosphere. 9:16
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: A futuristic cityscape at night, bustling with flying cars navigating through the air and neon lights illuminating the streets below, showcasing towering skyscrapers adorned with dynamic holographic advertisements, with a vibrant crowd of diverse people walking along the illuminated sidewalks, and the phrase 'Добро пожаловать в будущее' glowing above, embodying the energy and excitement of modern life. 16:9
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: An elegant book cover design featuring a mystical forest landscape at twilight, with ancient trees towering majestically and vibrant foliage framing the scene, surrounding a shimmering lake that reflects the last light of the day, and an ethereal figure standing on the shore, gazing up at the twinkling stars above, with the title 'Whispers of the Forest' elegantly scripted at the top in a whimsical font that draws the reader into a world of magic and adventure. 3:4
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: A breathtakingly realistic image of a grand historical building, its classical architecture standing proudly and illuminated by the soft golden hour light, showcasing intricate details in the stonework and elegant columns, surrounded by a lush garden bursting with colorful flowers and greenery, with a beautifully crafted sign reading 'Наследие прошлого' hanging at the entrance, emphasizing the building's rich history and cultural significance. 16:9
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: A vintage-style poster of a lively retro diner from the 1950s, featuring a bright red and white color scheme that evokes nostalgia, with classic chrome-plated cars parked outside and cheerful waitstaff serving delicious milkshakes and burgers, all captured in vibrant colors and dynamic poses, with the slogan 'Good Vibes & Great Food!' prominently displayed in bold typography, inviting everyone to enjoy a taste of the past. 16:9
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: A vibrant underwater scene depicting a colorful coral reef teeming with a diverse array of fish, as sunlight filters through the crystal clear water, illuminating the various marine life and creating a dance of light and shadows, with a diver gracefully exploring the depths, capturing the beauty and complexity of the ocean environment, showcasing the delicate balance of life beneath the waves. 16:9
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: A surreal dreamscape where a giant clock tower melts slowly into a shimmering river of stars, with whimsical floating islands covered in lush greenery and colorful flowers, and fantastical creatures like flying elephants and oversized butterflies fluttering gracefully around, creating a sense of wonder and whimsy that invites the viewer to immerse themselves in a fantastical world beyond imagination. 16:9
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: A realistic image of an ancient temple overgrown with lush vines and vibrant flowers, nestled deep within a dense jungle, where shafts of sunlight break through the thick canopy above to reveal intricate carvings on the stone, telling stories of a bygone era, and a small, tranquil waterfall cascading nearby, adding to the quiet beauty of this hidden gem. 16:9
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Промпт: An elegant illustration of a wise old owl perched majestically on a gnarled branch, surrounded by a flurry of falling autumn leaves in various shades of orange and red, with twinkling stars shimmering in the night sky above, and the quote 'Wisdom Comes With Time' artistically written beside it in an elegant script, capturing the essence of wisdom and tranquility inherent in nature. 16:9
Stable Diffusion 3.5 Large
Midjourney 6.1
Flux 1.1 Pro
Выводы
Не буду растягивать вывод, так как не считаю себя способной писать адекватную и справедливую критику. Напишу коротко, тем более что самые интересные мнения мы сможем прочитать в комментариях от уважаемых посетителей Хабра.
Мне больше всего понравился Midjourney, его я выбирала чаще всего как лучший вариант. Четыре изображения вместо одного — это тоже большой плюс, и с реалистичностью изображений у него тоже все очень хорошо. Но непонятно, почему он до сих пор не научился нормально отображать слова и фразы. Хотя со словами на русском языке не справился никто из них. Flux и Stable Diffusion на первый взгляд выдают практически одинаковое качество, но при детальном сравнении их результатов, я чаще выбирала то, что создал Flux.
А что думаете вы?
Комментарии (10)
AlexRihter9690
23.10.2024 10:09Тестил флюкс. Анатомия, пожалуй, лучшая из всех моделей, но вот всё остальное вообще никак. Как будто датасет был слишком однобоким и модель не может генерировать более специфические запросы
Overgod
23.10.2024 10:09SD3.5 можно запускать локально, а также можно дообучать. Что делае его сразу на голову выше остальных.
Я бы сказал что сейчас SDXL лучше всех именно из за огромного количества вариаций моделей, лор инструментов и т.д.
Будем надеется что SD3.5 через какое то время сместит SDXL с пъедистала.
(На счёт Flux-dev, там есть некоторые проблемы с дообучением и лицензией)
FiLunder7
23.10.2024 10:09На самом деле разница в качестве Флакса между дев и про довольно номинальна. И лоры тоже к нему уже есть и работают неплохо. Ну и я бы не сказал что sdxl на пьедестале. Для 2д я вообще все еще 1.5 использую, так как он выдает более качественный результат. Хотя и хуже следует промту.
Overgod
23.10.2024 10:09Да лоры работают. Я сам лично обучал пару лор для Flux и они работают очень даже неплохо. А вот на счет полноценного файтюнинга читал что у Flux-dev с этим очень серьезные проблемы плюс еще не очень хорошая лицензия мягко говоря не добавляет энтузиазма тем кто готов заняться файтюнингом.
На счет SD 1.5, ну я знаю что ими до сих пор пользуются. Но честно говоря мне они не кажется хоть в чем то лучше чем SDXL.Я тоже обычно 2D рисую и для меня SDXL на основе Pony гораздо более качественным кажется чем SD1.5. Но конечно на SD1.5 осталось очень много моделей которые рисуют в очень классных стилях. Я даже как то раз несколько дней смешивал разные SDXL модели и лоры для того что бы получить похожий стиль на одну из моих любимых моделей SD1.5 и в итоге все получилось, но это было сложно.
dxq3
23.10.2024 10:09да разве так тестируют? Ни одним промтом на попу не посадили нейронки. Про генерацию рук я молчу, тут все ясно, но можно же придумать нечто интереснее поясного портрета или простенького пейзажа.
Я извращался в тестах такими запросами - антропоморфный реалистичный медведь в кимоно и с нунчаками делает прыжок с ударом задней лапы, нападая на антропоморфного тигра. После такого промта сразу становится понятно, что хайп о силе нейронок сильно раздут. Ожидаешь нечто вроде "Кунгфу Панда" в реалистичном сеттинге - по факту получаешь нелепую мешанину, как будто слепой человек нафотошопил.
FiLunder7
23.10.2024 10:09А зачем? Тут тест именно какие картинки можно использовать картинки в продакшене. Понятное дело что поломать можно все что угодно.
Astus
23.10.2024 10:09Иногда переключаюсь на Flux, но в целом пока всё также предпочитаю SDXL, соотношение результат/быстродействие/гибкость у него высочайшие, по моему мнению и опыту - лучшее из имеющихся.
Примеры по вышеописанным промптам, как есть, первая генерация, без инпайнта и прочего:JPG 3mb 4000x1000
codecity
23.10.2024 10:09Интересно что в генерации изображений нет таких гигантов как OpenAI, которая вбухивает миллиарды. Midjourney более мелкая контора и успехи куда менее заметны.
Да и, видимо, область применимости у картинок не так уже велика. По сути такие картинки только как КПДВ для статьи или обложки/игры годятся. Особо на важные процессы, связанные с выживанием человечества - не влияет. Ну будет красивая картинка - хорошо, не будет - ну и без нее прочитаем суть.
Важнее как раз было бы генерить диаграммы наглядные и учебные пособия, а для этого нужна точность интеграции текста в картинку.
axion-1
В картинке с кафе у Stable Diffusion явно часть предыдущего промпта с "Whispers of the forest" попала. Возможно что-то скопипастилось неправильно.
Viktori777 Автор
Благодарю. Исправила.