Фотореализм без Midjourney: тестируем новую нейросеть / forpes.ru

Главная
Фотореализм без Midjourney: тестируем новую нейросеть

Фотореализм без Midjourney: тестируем новую нейросеть +8

31.03.2023 10:19

mochila007 42 9300 Источник

Бесплатных генераций в Midjourney больше нет и пришлось искать альтернативы.

Нейросеть Midjourney покорила сотни тысяч пользователей по всему миру качеством генерации картинок. Изображения, созданные там, многие путают с реальными рисунками или фотографиями. Лично для меня в Midjourney нашлись недостатки — необходимость работать в Discord (редко пользуюсь в повседневной жизни) и стоимость попыток генерации (200 попыток стоят $10, а подписка $30), а еще писать запросы можно только на английском.

Можно попробовать запустить Automatic111 или Dreambooth для генерации, но взять именно эту нейросеть не получится, а с CivitAI или Huggingface не каждый умеет работать. Преимуществом работы в Telegram‑боте является отсутствие необходимости в своём «железе», ведь для запуска подобной нейросети потребуется минимум 12 Гб видеопамяти, а ещё это всё настроить самому надо. В общем, когда за тебя уже всё сделали и бесплатно дают воспользоваться, то это круто. Да, есть и сайты, на которых можно генерировать изображения, но мессенджер всегда под рукой и это стало ещё одним плюсом для меня.

Авторы указывают, что нейросеть обучалась на базе архитектуры Stable Diffusion. Сравнивая с моделями из CivitAI и HuggingFace, убедился, что синтаксис запросов у данной модели намного проще, хоть и не без грехов.

Учитывая минусы Midjourney, решил попробовать другую нейросеть для генерации изображений от российских разработчиков — TurboText. Первое, что меня интересовало, смогу ли я получать реалистичные картинки, не хуже чем в MJ. Также обращал внимание на скорость работы, стоимость тарифов и удобство использования. Сначала покажу свои примеры, которые удалось сгенерировать по простым запросам, а после озвучу собственные выводы.

женщина 35 лет с ребенком, RAW фото, крупным планом, высокая детализация

Грязная худая девочка с сажей на лице в старых ободранных вещах сидит на берегу горной реки

старик с морщинами, загорелое лицо, платок на голове

RAW фото, европейская лань бежит по лесу, крупным планом, снято на Fujifilm XT3, dslr

кот нежится на солнышке, лежит на зеленой лужайке, весна, фотосъемка, профессиональный кадр

горячий прожаренный стейк из говядины, сочное мясо, лежит на деревянной тарелке, веточка розмарина

Горячие спагетти с насыщенным томатным соусом, нежными фрикадельками, ароматными травами, естественное теплое освещение

сочный гамбургер с говяжьей котлетой сыром и зеленью, румяные булочки с кунжутом, расплавленный сыр стекает на тарелку

чашка чая на столе, рядом лежат аппетитные бублики и стоит ваза с цветами, атмосфера деревни

Выводы

Нейросеть TurboText приятно удивила своими возможностями генерации фотореализма. С ее помощью можно создавать качественные изображения для любых целей.

Хотелось бы выделить главные плюсы на данный момент:

удобство использования (Telegram всегда под рукой);
низкая стоимость тарифов: 100, 150 рублей, $2 или $3;
можно давать запросы на русском и английском;
картинки получаются реалистичными и «сочными»;
есть 10 бесплатных попыток для теста.
есть возможность увеличить до 4096×4096 и изменить стиль
если нет идей, то дополнительная нейросеть в боте поможет составить запрос бесплатно

В Midjourney больше нет 25 бесплатных попыток как раньше, минимум придётся отдать 10$ (790 ₽). В Telegram‑боте TurboText я получил 10. Но все же выделил это как плюс. Почему? В боте каждый день я могу возобновлять до 30 бесплатных попыток командой get_bonus. Да и в целом тарифы в российском сервисе гораздо ниже, не так бьет по карману. Поэтому выделил бесплатные попытки как плюс для TurboText.

Что касается качества картинок, Telegram‑бот порадовал. Да, бывает 6 пальцев на руке, кривые части тела, но это всё решается с помощью параметра negative_prompt. Если наловчиться правильно давать запросы, использовать параметры (указывать стиль, силу фантазии нейросети и тд), можно с первого раза получать хорошие изображения без необходимости доработки деталей.

Комментарии (42)

mrCOTOHA
00.00.0000 00:00
#25393606
+4
Пришлось зарегестрироваться.

Stable Diffusion. Бесплатно. Оффлайн.

Даже видео есть, как это все поставить https://youtu.be/jepK6ufemMw
1. mochila007 Автор
  00.00.0000 00:00
  #25393614
  да, но для этого необходима своя видеокарта объёмом от Гб или от 12 Гб если в разрешении 1024х1024 генерировать, место на диске, время на установку и обслуживание софта и умение работать с Git, как минимум. Как простому пользователю, проще было просто зайти в Телеграм и нажать кнопочку "создать изображение"
  1. AlexB17
    00.00.0000 00:00
    #25393726
    +8
    На RTX 2070 с 8Гб в Automatic111 + xformers прекрасно рендерю картинки выше чем 1024х1024 а еще есть скрипт Ultimate SD Upscale где тайлами можно хоть до 2К\4К повышать детализацию.
    Плюс имею полный инструментарий для работы: img2img, inpainting, ControlNet, апскейлинг с codeformer различные модели, эмбеддинги и т.д.
    
    mochila007 Автор
    00.00.0000 00:00
    #25393842
    +1
    
    Пользователи сейчас в основном с ноутбуков или смартфонов сидят. Не в каждом ноутбуке есть видеокарта более 4 Гб, а на смартфонах Automatic111 не поставишь.
    
    Давайте представим образ пользователя: женщина 35 лет, работает в общепите, приходит домой и хочет просто оформить свою страницу в соцсети или же сделать изображения для контента в блоге о рукоделии или кулинарии. Ей нужен будет Auromatic111, разбираться с разновидностью нейросетей, где скачать веса, как обучить Lora/эмбеддинги и что такое ControlNet или же она захочет просто воспользоваться готовым решением, которое сэкономит её время и деньги на приобретение "железа"? Ответ очевиден)
    
    Для профессионального использования, конечно, необходимо разбираться в теме и можно всё локально использовать, но в то же время, далеко не всё есть в открытом доступе для скачивания весов. Это как фотошоп - кто-то покупает и пользуется софтом для обработки фото, ведь он фотограф, а кто-то - заходит в фоторедактор онлайн и пользуется им.
    
    gsaw
    00.00.0000 00:00
    #25394084
    +2
    Ну так можно еще усложнить исходные данные. Света нету дома, компьютер сломался.
    
    Имхо 2070 это уже доступно по цене, для того, кто хочет просто попробовать. Не говоря уже о том, что бы использовать в своем проекте.
    
    А заплатить 10 баксов и сгенерировать картинку, это не отдать фрилансеру 100 баксов и получить "он художник, он так видит".
    
    AlexB17
    00.00.0000 00:00
    #25394106
    +1
    По пунктам:
    1) Ноутбуки с той же мобильной 3050 это уже самый верх офисного сегмента и доступны при грамотном выборе каждому. А игровые решения за чуть большие деньги запустят без проблем.
    2) Плохо представляю как такая женщина работающая в общепите раньше пользовалась Midjourney через дискорд и имеет страницу в соцсети с AI артами. Скорее эта женщина найдет для себя бесплатные playgroundai или lexica где можно копипастить промты и делать ремиксы.
    3) Согласен, вникнуть во все возможности Automatic111 сможет не каждый, но ведь для создания картинки с базовой моделью нужна лишь строка промта - она работает "из коробки" а уже постепенно потом изучать функционал, покачать модели, посмотреть пару видео на ютубе про настройки может каждый.
    
    Mortello
    00.00.0000 00:00
    #25398782
    +1
    По второму пункту. Озвученной ЦА сервиса, место публикации не очень соответствует
    
    По третьему. Все в открытом доступе. Какой смысл заявлять об отсутствии в свободном доступе если опровергается за 5 секунд? Huggingface и civit.ai - качай сколько влезет..
    
    mochila007 Автор
    00.00.0000 00:00
    #25398792
    Результатов, получаемых в боте, вы не получите в моделях из HF или CivitAI, потому что модель не публиковалась, об этом речь. То что аналоги на SD можно найти на тех платформах - это и так понятно. Но использовать их будет небольшая аудитория, в отличие от желающих получать результат быстро и прямо в мессенджере.
    
    Условно месседж такой: мне, как пользователю, удобнее зайти в интерфейс и тыкнуть одну кнопку, при желании получить сотни генераций за 100 руб., чем лезть в дебри Automatic и тратить на это время.
  1. rogoz
    00.00.0000 00:00
    #25393728
    +1
    своя видеокарта
    От 4 Гб.
    Более того, как минимум Automatic111 можно запустить на процессоре, только будет очень медленно, но на попробовать хватит.
    
    mochila007 Автор
    00.00.0000 00:00
    #25397952
    Automatic требует своё железо и память на диске, а также необходимость следить за кривыми постоянными обновлениями репозитория, смотреть мердж-реквесты и экстеншены, ведь даже за последние 2 недели обновления в Automatic были багнутыми несколько дней.
    
    Плюс про 12 Гб не просто так сказано - SD 2.1 и SD 2.2 XL при 1024х1024 со слоями эмбеддингов и/или Lora требуют 12 Гб видеопамяти при локальном использовании.
    
    Повторюсь, что намного экономнее по времени просто нажать кнопку "создать" со смартфона, чем идти за комп/ноут и забивать память и ресурсы устройства сторонним софтом.
    
    314159abc
    00.00.0000 00:00
    #25399150
    +1
    Отлично все ставится в гугл колаб. Жмякаешь три раза кнопочку плей, получаешь ссылку на веб-интерфейс автоматика. Очень легко, куча туториалов на ютубе. По ссылке легко туда загрузить любую модель из чекпоинтов sd. Генерит одно изображение секунд пять-десять. Скачивать ничего не надо. Платить тоже.
  1. Mortello
    00.00.0000 00:00
    #25398762
    +1
    В разрешении 1024*1024 генерировать особого смысла нет, гораздо удобнее батчем 4*512*512 а потом апскейлить то что понравилось. Гит там не необходим (но иногда может помочь). Есть возможность задать количество шагов или семплер? Задать вес конкретному токену в промте?
    
    От 12 gb vram? Прекрасно работает на 6-и, на 4-х запускают без особых проблем.
    
    mochila007 Автор
    00.00.0000 00:00
    #25398812
    Веса токенам и негативный промт задать там можно, изображения с маленьким разрешением в стоке без увеличения пользователям неинтересны. Пользователь хочет получать в один клик минимум 1024 пикселей, т.е. чтобы в 4 раза больше информации на изображении без апскейлеров содержало изображение, чем при 512х512.
    
    Хороший апскейлер будет увеличивать до 4096х4096 более 3 минут, пользователь ждать не будет. Что-то среднее типа ESRGAN за 10-30 секунд Х4, но надо исходник больше размером, чтобы было меньше потерь деталей. Поэтому 1024х1024 вариант лучше и практичнее, чем 512х512.
    
    И вот да, на 4-6 Гб 512х512 и даже 768х768 при инференсе моделей SD1.5 запустить можно, для SD2.1 XL уже надо 12 Гб минимум при 1024х1024. И да, SD2.1 XL опубликуется только в ближайшие недели в свободный доступ, пока из последних только SD2.1, которой тоже при 1024х1024 надо 12 Гб чтобы хорошо себя чувствовать, о чём писалось здесь ранее.
    
    nidalee
    00.00.0000 00:00
    #25398850
    +1
    Пользователь хочет получать в один клик минимум 1024 пикселей, т.е. чтобы в 4 раза больше информации на изображении без апскейлеров содержало изображение, чем при 512х512.
    Оставьте уже этот максимализм, ей-богу. Больше — не значит лучше. У вас в статье на картинках 40-60% изображения это фон в ОГРОМНОМ количестве мыла. Зачем вам там эти пиксели?
    И я вас уверяю, как человек, который в свое время пытался пропихнуть авторам видео на patreon адекватные параметры сжатия и даже пилил для них однокнопочные сжималки в надежде, что они начнут нормально сжимать свое видео из lossless PNG раскадровок — пользователям глубоко плевать, сколько у них там пикселей. Даже тем, кто работает с 3D и видео. Не говоря уже о домохозяйках и прочих.
    Большинство потребителей контента смотрят его на телефонах. Нет там никакой нужды в деталях. Почти никто с этим не заморачивается.
    
    Ваши посты потом растащат по Интернету, и будут свято верить, что 12ГБ — это минимум. Хотя на самом деле, это минимум для абсолютного меньшинства не самых полезных моделей (цензура, черные списки художников и прочие чудеса корпоративного управления отбивает у большинства энтузиастов желание что-то делать с этим инструментом). А без энтузиастов, ну… Никто их дообучать, миксовать не будет. Ну ладно, будут, 5% от пользовательской базы.
    Вижу какую-то пользу в бесплатном клоне Midjourney. В платном — не очень.
    
    Опять же — ничего личного, просто вот от этих «12ГБ минимум», «много места занимает», «надо следить и обновлять» — корежит, как пользователя. Нет там ничего сложного или требовательного. Народ на картах 6-и летней давности прекрасно себе генерирует. И на ноутбучных.
    
    mochila007 Автор
    00.00.0000 00:00
    #25399398
    Я лишь наблюдаю рост комьюнити тех, кто хочет смотреть на изображения в высоком разрешении, а не 512х512. Даже со смартфона такое разрешение выглядит не очень, ведь большинство смартфонов имеют разрешение 2К, либо FHD. Большинство людей не слышали про AUTOMATIC, а если им сказать, что там надо сделать git pull с такого-то репозитория, то у ~95% это вызовет сразу отвращение и останутся как раз те 5%, которые пойдут в Colab или развернут локально.
    
    То что общество, создающее визуальный контент, делится на 2 секты - кто простой потребитель и кто пользуется в профессиональных кругах - это тоже так. Одни хотят написать 2 слова и получать готовый результат, а другим - важно контролировать параметры, изучать как устроено под капотом и т.д. Условно будем считать, что это как "одни верят в науку, а другие - в магию". Обе секты будут существовать до тех пор, пока будет спрос.
    
    Если есть спрос на генерацию изображений в один клик - будет и предложение. Каждый день я наблюдаю, как такие комьюнити, кому проще отдать 100 рублей, чем лезть в дебри Automatic только растёт и это неудивительно. Тем более, что там ChatGPT прикручен ещё как вспомогательная нейросеть, всё в одном месте и не надо бегать в разные сервисы.

unwrecker
00.00.0000 00:00
#25393620
+1
Всё прекрасно, но стейк то не прожарен! :)
1. mochila007 Автор
  00.00.0000 00:00
  #25393646
  +3
  сделаю замечание нейросетевому повару ) не получит мишлен

ITMatika
00.00.0000 00:00
#25393722
Подскажите, как использовать параметр negative_prompt? Например, как negative_prompt:28? Какие допустимые значения?
Как использовать стиль, скажем, Maxfield Parrish?
1. mochila007 Автор
  00.00.0000 00:00
  #25393756
  +1
  в боте есть ссылка на руководство по использованию, она перед стартом генерации даётся (кидать здесь не могу т.к. без понятия как Хабр отреагирует на них). negative_prompt: плохая анатомия тела, водяной знак... - т.е. прописываете значения, что именно надо удалить на изображении.
  
  В боте при генерации есть 8 стилей изображения (прописываются параметром style), а прочие вы можете указать самостоятельно.
  
  Например: Девушка за рулём автомобиля в стиле художника Ван Гога

Javian
00.00.0000 00:00
#25393832
ворона сидит на ветке дерева

с когтем на левой лапе проблема.
1. AlexB17
  00.00.0000 00:00
  #25393838
  +1
  Это вы еще на хвост со смещением не обратили внимание )
  1. Gor40
    00.00.0000 00:00
    #25396074
    +1
    А можно просто переименовать в "ворона сидит на ветке дерева после тяжёлой драки"

ABATAPA
00.00.0000 00:00
#25393882
+2
Сделал ~5 запросов, ни в одном не получил ни желаемого, ни более-менее близкого к реалистичному изображения: везде размытый фон, везде персоны с каких-то рекламных или стоковых фото и т. д. ну, и косяки:

Девушка в модном открытом(?) купальнике выходит из воды на пляже Анапы(?).
1. mochila007 Автор
  00.00.0000 00:00
  #25393892
  +1
  если есть ошибки в генерации, то можно увеличить steps хоть до 100 или изменить style (доступно 8 стилей, описанных в руководстве)
1. bilayan
  00.00.0000 00:00
  #25394006
  Это не Midjourney, тут запросы формулировать надо тщательнее. На ютубе уже очень подробно за эти месяцы рассмотрели. Так же к этому сейчас добавились и редактор поз и много еще всяких возможностей.
  Несмотря на то что автор канала мне не нравится, но в видео у него очень подробно рассмотрены большая часть аспектов
  https://www.youtube.com/playlist?list=PL05SB3rBbUsprkMgH3yDV12MuuIbO5KEq
  1. mochila007 Автор
    00.00.0000 00:00
    #25394058
    у Христа много интересного есть)
1. VadimProfii
  00.00.0000 00:00
  #25394602
  Ноги зачем обрезали? Непорядок.
1. iiiytn1k
  00.00.0000 00:00
  #25394852
  +3
  Да уж... Насколько же Stable Diffusion превосходит все эти поделия.
  
  Это, конечно, не Анапа, и не Сочи, и не Геленджик... Но тоже ничего.
  
  Hidden text
  
  Hidden text
  
  RAW photo, (realistic:1.2), solo, long hair, blonde hair, hair over one eye, blue eyes, sharp eyes, full shot body, photo of a girl in a fashionable bikini comes out of the water on the beach, (beach background:1.2), full body, standing, intricate details, sunny day, hand on hip, small breast Negative prompt: (worst quality:1.4), (low quality:1.4), (monochrome:1.1), (multiple persons:1.3), cropped, bokeh, blurred Steps: 30, Sampler: DDIM, CFG scale: 9, Seed: 1582924993, Size: 768x512, Model hash: 0d27c62ffa, Model: realdosmix_, Denoising strength: 0.6, Clip skip: 2, Hires upscale: 2, Hires steps: 20, Hires upscaler: Latent
  1. mochila007 Автор
    00.00.0000 00:00
    #25394926
    это в какой модели? или чистый stable?
    
    iiiytn1k
    00.00.0000 00:00
    #25394934
    Во втором спойлере промпт.
    
    Model hash: 0d27c62ffa, Model: realdosmix_
    
    https://civitai.com/models/6925/realdosmix
  1. mochila007 Автор
    00.00.0000 00:00
    #25394958
    вот то что по вашему запросу получается в боте

boingo-00
00.00.0000 00:00
#25393916
Заселфхостить можно?
1. mochila007 Автор
  00.00.0000 00:00
  #25394056
  возможно, в этом вам подскажут у них в чате

FreeOnn
00.00.0000 00:00
#25393990
+14
У автора уже был пост о создании бота TurboText для текста, теперь автор пишет что решил дать шанс российским разработчикам— TurboText. Автор Вы больше никак не связаны с TurboText? Или это просто реклама где вы якобы как случайный пользователь нашли такой великолепный проект.

Tangeman
00.00.0000 00:00
#25396750
-1
Настоящий прогресс наступит тогда когда ИИ научится рисовать собак верхом на котах. Пока что мне не удалось добиться этого ни от одной нейросети - при запросах типа "собака верхом на коте" в разных вариациях и на разных языках всё равно получается наоборот - коты верхом на собаках. В лучшем случае и если долго пробовать собака может оказаться где-то над котом или его частью, но никак не верхом.
1. iiiytn1k
  00.00.0000 00:00
  #25397032
  +6
  1. semennikov
    00.00.0000 00:00
    #25398270
    Кот какой то не кошачий...Больше похож на собаку с кошачьей мордой, да и морда больше на собачью смахивает. Но все равно здорово!

nidalee
00.00.0000 00:00
#25397824
+2
Уберите про "12 ГБ" нафиг, не пугайте народ почем зря.
С 8 ГБ уже комфортно (и можно даже обучать lora), а минимум, как написали выше, вообще 4 ГБ.
Больше 10 по факту нужно только для dreambooth.
1. mochila007 Автор
  00.00.0000 00:00
  #25397964
  -1
  SD 2.1 и SD 2.2 XL, которые здесь использовались в основе для дальнейшего обучения моделей, требуют минимум 12 Гб видеопамяти при генерации изображений в 1024х1024 со слоями Lora и/или эмбеддингов.
  
  Вы путаете с легковесными SD 1.5, которые можно запустить на 8 Гб при 1024х1024. Но это речь идёт об Automatic - сторонний софт, который надо ставить себе на ноут/комп и забивать хранилище и ресурсы устройства, к тому же, постоянно следить за обновлениями и экстеншенами в репозитории, ведь открытая в доступе софтина только за последние 2 недели выходила из строя несколько раз.
  
  Намного проще нажать со смартфона "создать изображение" и получить результат за секунды, чем установить, изучить сторонний софт, забивать устройство обновлениями. И это при условии, что для установки уже есть соответствие системным требованиям, которые постоянно растут.
  1. nidalee
    00.00.0000 00:00
    #25398070
    +1
    SD 2.1 и SD 2.2 XL, которые здесь использовались в основе для дальнейшего обучения моделей, требуют минимум 12 Гб видеопамяти
    
    SD 2 - один из лучших примеров того, что обновления не всегда делают лучше. Ну вон вам в комментариях выше накидали примеров на 1.5. Сравните. Небо и земля.
    
    Да и вообще, сдались вам эти 1024х1024 квадраты? Куда их девать? Я на своих 24 ГБ генерирую 910х512 (или наоборот, в зависимости от того, вертикальная картинка или горизонтальная в планах) и не жалуюсь. Не зря же там апскейлеры встроены.
    
    Но это речь идёт об Automatic - сторонний софт, который надо ставить себе на ноут/комп и забивать хранилище и ресурсы устройства
    
    Если у пользователя нашлось 64 гига на Винду, то у него найдется 10 на webui. Ставится он в один клик. Для тех, кому сложно два.
    
    постоянно следить за обновлениями и экстеншенами в репозитории
    
    Для генерации того, что у вас в примерах, никаких экстеншенов не нужно. Как и обновлений (работает - не трожь). А вообще, научиться делать cd в папку и git pull стоит каждому. Этого, в целом, и достаточно.
    
    И это при условии, что для установки уже есть соответствие системным требованиям, которые постоянно растут.
    
    Когда росли требования у automatic webui?
    
    Намного проще нажать со смартфона "создать изображение" и получить
    
    ...откровенную ботву, на уровне того, что на двачах генерировали в октябре прошлого года.

SevenLion
00.00.0000 00:00
#25397954
Классно работает. Не хуже, чем Midjorney. Но очевидно, что с первого запроса не всегда получается то, что хочешь... Нужно тренироваться. Спасибо разработчикам за инструмент!

Veselyi_kot
00.00.0000 00:00
#25399808
+1
Можно проще.

Вариант раз:Stable Horde плюс любая модель на фотореализм (напр-р, Dreamlike Photoreal или Realistic Vision). Инструкция тыц.

Вариант два: генератор картинок от Bing. Ссылка тыц, нужен VPN и аккаунт мелкомягких.

Оба:
Полностью бесплатны, без ограничений на использование (жесткого лимита, завязанного на «плати или проваливай»).
Дают реалистичную картинку. Для бинга достаточно простого запроса на более-менее нативном языке, для Stable нужен промт (шаблон по ссылке тыц, там же настройки крутилок, от которых можно отталкиваться).
Тоже работают в браузере, требуя из железа только «руль от унитаза».
В отличие от жадного Midjourney, авторские права принадлежат вам даже при работе с Bing. SH вообще ни на что не претендует даже в теории.

Фотореализм без Midjourney: тестируем новую нейросеть +8

Выводы

Комментарии (42)

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор

mochila007 Автор