Привет, меня зовут Юля, 85GB и я веду свой канал по нейронкам

В этой статье я рассмотрю по различным параметрам графические нейронки: DALL-E 2 (далее буду называть его DALL-E), Midjourney, Stable Diffusion, Кандинский и Шедеврум. Постараюсь разложить всё максимально чётко и ёмко, дать оценку по каждому блоку от 0 до 5. А потом всё сведу в одну таблицу. Штош, поехали. Содержание (кликабельно):

Цена и доступность

Здесь всё довольно просто.

  1. DALL-E — платный, каждые 115 генераций за 15$, оптом не дешевле. Предоставляет 14 бесплатных генераций каждый месяц только старым пользователям (которые зарегались в Далли до 6 апреля 2023г.), новые должны платить без вариантов. Для пользователей за пределами России легкодоступна в браузере. Для пользователей на территории России — недоступна, нужно заморочиться с иностранным номером.

  2. Midjorney — платный, есть несколько тарифов: 10, 30 и 60 баксов. Отличаются они количеством часов генераций и функцией приватности в самом дорогом тарифе. Что это значит? Ваши картинки никто не увидит, они не попадут в общую ленту и их нельзя будет найти по поиску. Доступ через дискорд и сайт. Пользователям с территории России нужно искать обходные пути для оплаты.

  3. Stable Diffusion — бесплатный. Вариантов доступа множество. Есть базовая консоль, в которой всё пишется кодом и надо быть прогером. Есть привычный всем Automatic1111 — консольный интерфейс с кучей настроек, надо кааапельку шарить в гитхабе и коде. Он требует дохрена физической и видеопамяти для работы. Есть сайты, например, бесплатный (результаты так себе) или платный от создателей Стейбла. А ещё Гугл-коллаб с Automatic, генерация происходит на стороне Гугла.

  4. Кандинский — бесплатный. Вариант доступа — через сайт.
    UPD 24.05.23:
    ещё есть приложение Сбер Салют, к которому подключён Кандинский под именем Далли (ЛОЛ), а также Cбер оживил свой ruDALL-E и у них есть официальный бот в телеге. Помимо этого, сбер создал ГигаЧат, куда также подрубил генерацию картинок, но пока что доступ дают только в закрытом канале телеги.

  5. Шедеврум — бесплатный. Доступен только через приложение.

DALL-E

Midjorney

Stable

Кандинский

Шедеврум

2

2

4

5

5

Оценки по блоку основаны, в частности, на доступе для российских юзеров

Midjourney: entry threshold
Midjourney: entry threshold

Порог вхождения

В этом блоке пойдёт речь о дружелюбности системы к юзеру и простоте/сложности использования.

  1. DALL-E — максимально простое введение подсказок (промптов), старается работать в контексте. Документацию в целом тоже найти несложно, она есть на главной странице, но она больше предназначена для их открытого кода, а не для юзеров, инфа очень сжата. Есть блок "хелп" на странице с генерацией, он плохо работает — это бот с набором вопрос-ответов. Но есть отдельная страница "хэлпа" с более развёрнутыми ответами, как будто они прописывают правила на ходу.

  2. Midjorney. На данный момент существует версия 5.1, которая работает в контексте, а вот версия 4 и более ранние были довольно капризны к промптам, требуя строгого порядка тегов. Документация большая и понятная, дружелюбная к юзеру, доступна с главной страницы сайта.

  3. Stable Diffusion — ад на земле. Ремар очка: я буквально по канону прошла все стадии от отрицания до принятия, и на этапе гнева мне хотелось разбить комп. Так вот, Стейбл — это консоль, которая требует довольно конкретных тегов (токенов). Нужно вводить не только обычные промпты, но и отрицательные. Здесь множество правил и нюансов, которые просто надо знать. Документация есть у Automatic1111, но там больше про интерфейс и код. Документация самого Стейбла — чисто про код, рядовому юзеру типа меня там нечего делать. Базовой версией Стейбла пользоваться бесполезно, она очень плоха, нужно дополнительно скачивать модели (как моды на игры) которые весят в среднем 2–5 гигов, дополнительные поднастройки. Чтобы разобраться в этом, нужно потратить ОГРОМНОЕ количество времени.

  4. Кандинский. По нажатию знака вопроса выдаёт это: "Введите описание изображения и нажмите Создать". Никакой другой инфы и документации я не нашла. Для тех, кто уже работал с нейронками это ок, для новых юзеров — нет, это не френдли.

  5. Шедеврум. Тоже самое, что у Кандинского, но есть "правила" на пару абзацев (из которых почти ничего не ясно). Хотя в целом Шедеврум довольно прост, в том числе благодаря ленте в приложении.

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

4

5

2

1

3


 Midjourney: forbidden
Midjourney: forbidden

Запрещёнка

Этот блок тесно связан с предыдущим, но его необходимо разобрать отдельно прежде чем приступить к генерации.

  1. DALL-E. Нет списка слов, но запретные темы развёрнуты в правилах: Ненависть, Насилие, Секс, Шок-контент (человеческие выделения, плохие жесты), Наркотики, Политика, Болезни. Хочется спросить: а ваще чота можна? Ну, кроме просто людей и кроликов каких-то. За нарушение правил грозит бан (правда неясно, сколько раз надо нарушить)

  2. Midjorney. Нет списка слов, есть пояснения по темам в документации. Из очевидных запретов: контент для взрослых, сцены насилия и оторванные конечности. Версия 5.1 вроде должна была ввести ограничения на знаменитостей. Но я заметила только, что сходство некоторых ухудшилось или пропало (Трамп по прежнему идеален). За использование запретных слов — бан (коммьюнити говорит о 25 попытках, официальных данных нет, как и официального списка слов).

  3. Stable Diffusion. Начнём с того, что версий несколько. В 1.5 ограничений практически нет или их легко обойти. А вот в 2.0 создатели вычистили из набора данных весь контент для взрослых, убрали имена художников, потому что многие из них выступали против нейронок. Официальной инфы об этом нет, только новости, форумы и обзоры юзеров.

  4. Кандинский. Нет документации — нет информации. Всё постигается сугубо опытом. Например, слово "обнажённый" можно, "кровь" можно, а вот на слово "кишки" генерит поле с цветочками и пишет "Запрос не соответствует правилам работы". Дали бы хоть эти правила почитать что ли.

  5. Шедеврум. Запреты следующее: Фамилии, Политика и религия, 18+ контент, Жестокость и Насилие. Пояснений нет, только перечисление. И вот в чём прикол: фамилии под запретом настолько, что нельзя писать даже бренды. Я не могу ввести "мужчина в костюме Версаче", нейронка не пропустит это. И ещё я выявила, что нельзя обращаться к расовой принадлежности. Нельзя "азиатский мужчина", надо: "кореец" или "китаец". Есть это в правилах? нет.

Пожалуй, самая спорная графа для оценки. С одной стороны, какая-то цензура нужна, но ни одна нейронка не реализовала её достаточно хорошо и не выдала просто список запрещённых слов в виде таблицы. Решила, что снижу оценки за силу цензуры, но накину баллов за объяснения. Шедеврум получает 0 за адский кринж со всех сторон.

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

2

3

3

4

0

Дональд идеально отражает мою реакцию на всю эту дичь. Сделано в Миджорни.
Дональд идеально отражает мою реакцию на всю эту дичь. Сделано в Миджорни.

Промпты

И вот, мы пришли к самому интересному. Я возьму не просто одинаковые промпты. но и буду описывать то, сколько требуется доработок до удобоваримого материала (если таковой вообще предусмотрен).

Итак, базовый промпт: a man standing in front of a pink flowers, inspired by Nikolaj Abraham Abildgaard, official versace editorial, exquisite and handsome wings, vogue magazine cover, asian male, darius zawadzki and tom bagshaw, hermes ad, prideful look

Этот промпт я получила с помощью картинки подписчика моего канала и функции/describe Миджорни.

Как можно заметить, все они нацелены на фотореализм, но разберём по порядку:

  1. DALL-E — ноль изменений, промпт взят как есть. Приятно, что это самая живая пикча из всех на первый взгляд. Далли выдаёт 4 пикчи при генерации

  2. Midjourney — в обоих версиях тоже без изменений промпта. Здесь сразу покажу, что картинки получаются разными при генерации, но похожими друг на друга. Миджа выдаёт 4 картинки, из которых можно кнопкой U получить увеличенную версию или кнопкой V получить варианты одной пикчи.

  1. Stable Diffusion. А вот тут начинаются проблемы. Как я говорила выше, нельзя просто сразу "из коробки" получить то, что хочешь. Сначала надо скачать модель под задачу. И я это сделала, скачала несколько фотореалистичных (если надо, сделаю отдельный пост про них в канале). Давайте посмотрим на картинку, которая получается при голом промпте:

Адский кринж, неправда ли? Дело в том, что в промпт нужно добавить:

  • Уточнение фотореализма: (8k, RAW photo, highest quality) обязательно в скобочках, это для демонстрации важности тегов.

  • Негативный промпт. Здесь такой прикол: нужно заносить сюда всё, что НЕ нравится на картинке. Мне лично это далось тяжело. Концепция "я не хочу, чтобы были кривые пальцы" ломает мозг. Но это лирика, продолжим, я взяла список типовых слов для негативного промпта: lowres, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, jpeg artifacts, signature, bad anatomy, extra legs, extra arms, extra fingers, poorly drawn hands, poorly drawn feet, disfigured, out of frame, tiling, bad art, deformed, mutated, blurry, fuzzy, misshaped, mutant, gross, disgusting, ugly, watermark, watermarks. Получаем такую картинку. Но это не предел.

Можно это улучшить ещё больше. Но это уже радикальные изменения промпта. Добавляем следующее: (dark shot:1.17), epic realistic, art, (hdr:1.5), (muted colors:1.2), hyperdetailed, (artstation:1.5), warm lights. Што это за цифры? Это веса. В Миджорни работают похожим образом, только без скобок и через двойное двоеточие. Вот данные конкретные теги предназначены для создания артовой картинки, но в разных моделях даёт разный результат, мне выдал такой:

Прим.: по дефолту выдаёт одну картинку за раз, все каринки разные, но в одном стиле
Прим.: по дефолту выдаёт одну картинку за раз, все каринки разные, но в одном стиле

Это достаточно похоже на фотку, результат меня устроил, идём дальше.

  1. Кандинский. Промпт не менялся и, как вы можете заметить, картинки похожи на 4-ю версию Миджи. Это интересная тема: в зависимости от стиля или промпта часть картинок будет похожа на Далли или Стейбл (у которых открытый код), а часть — на Миджорни (код которой не раскрывается), так что мне крайне любопытно, как они это реализовали. Пересыл делают что ли. При длинном промпте все картинки похожи друг на друга, почти идентичны:

Кандинский по дефолту имеет 17 стилей, но разумеется можно экспериментировать. В отличие от иностранных сервисов, поддерживает русский язык.

  1. Шедеврум. Здесь прям адуха. Из-за ограничений промпт пришлось сократить вполовину: man, pink flowers on the background, exquisite and beautiful wings, vogue magazine cover, korean, close-up shooting, proud look.Получилось это:

И да, это оригинальный размер. В целом, очень похоже на остальные картинки, и это хорошо. Как будто бы можно получить желаемое изображение с минимумом усилий. Но тотальное количество ограничений, с которыми я столкнулась - это плохо. Оно говорит об отсутствии контроля. Порой стиль того или иного бренда для изображения критичен, он даёт свой особый вайб, который нельзя передать другими словами.

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

5

5

3

5

1

Оценивала работу с чистым промптом


Догенерация и постобработка

А что если я не хочу людей, как в таком случае справляются нейронки? И могу ли я исправить то, что сгенерировала? Начнём с базового промпта: photography, lemonade with ice and strawberry, yellow background, in the style of contemporary, simple, sunlight

И вот тут можно увидеть, что по качеству генерации НЕлюдей Миджорни выигрывает. Но мы тут не за этим. Постобработка, поехали:

  1. DALL-E. Изначально квадратную картинку можно расширить с помощью функции редактирования изображения, убрать любой объект или добавить его. Делается это довольно простым функционалом, я записывала о нём видео. То есть догенерить можно любую картинку, если добавить к ней промпт. Помимо этого, каждую картинку можно получить в 4х вариантах с помощью кнопки Variations.

  1. Midjourney. Здесь нет такой догенерации и постобработки изображения. Это огромный минус. Только получение вариантов одной пикчи.

  2. Stable. А вот тут как раз масса вариантов для редактирования. С помощью базового интерфейса Автоматик можно увеличить соотношение сторон и дорисовать объекты несколькими способами.

  1. Кандинский. Здесь догенерация и редактура скопированы у Далли, но реализованы пока что гораздо хуже. Например, внесение изменений в изображение сильно портит его и так не самое топовое качество.

  1. Шедеврум. Здесь нет никаких доп. функций.

Так как я занимаюсь сравнением нейронок, то оценивать этот блок буду не относительно того, что я хотела бы видеть в идеале, а относительно того, что они могут выдавать сейчас:

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

3

0

5

2

0


Доп. функции. Размер и качество на выходе

Есть ли ещё функции для обработки изображений у нейронок?

  1. DALL-E. Всё только на промптах. Стандартный размер выходного изображения: 1024х1024. Вес: около 1,5мб. Качество: не очень хорошее, мыльно, много размазанных деталей. Приведу в пример кусок картинки:

  1. Midjourney. Все настройки здесь выполняются командной строкой. Команд здесь много для разных целей: смешивание изображений, получение промпта с картинки, превращение одной картинки в другую (img to img), изменение деталей изображения с помощью закрепления seed (номера генерации). Помимо команд также есть параметры: для указания размера картинки (соотношения сторон), для уровня стилизации, создания бесшовного паттерна и прочего. Все они описаны в документации Миджи.

Апскейл 1 из 4-х изображений осуществляется кнопкой U. Стандартный размер выходного изображения: 1024х1024. Вес: около 1,5мб. Качество: хорошая передача объектов но много шумов, которые, если не увеличивать картинку, добавляют резкости. Картинки из Миджорни можно смело публиковать в соцсетях и даже печатать на небольших форматах. Пример:

  1. Stable Diffusion. Множество настроек и регулировок изображения. Seed здесь работает не очень, как и в Миджорни, а вот img2img намного лучше.

Img2img и seed — это огромная тема, пожалуй, обозрю её подробнее в следующий раз. За обновлениями следите у меня на канале.

Скачивание дополнительных моделей позволяет менять свет и настраивать позы. Пока это работает неидеально, но работает.

В Автоматике можно увеличить изображение во вкладке Extras или краааайне сложными путями. Но хорошее качество будет только с девицей на картинке (в идеале голой), остальные тематики в пролёте. На мой взгляд, лучше пользоваться сторонними апскейлерами. Сравнение:

Стандартный размер выходного изображения: 512х512. Вес: около 300кб. Качество: плохое, мыльное, пиксельное. Такое изображение лично я клиенту отправить не смогу. Приведу в пример кусок картинки:

  1. Кандинский. Нет доп. настроек, кроме указанных в предыдущей главе. Стандартный размер выходного изображения: 767х767. Вес: около 300кб. Качество: плохое, мыльное, пиксельное. Пример:

  1. Шедеврум. Это просто трэш. Стандартный размер выходного изображения: 256х256. Вес: около 15кб. Качество: плохое, шумное, пиксельное.
    UPD 24.05.2023: через минуту изображение апскейлится, размер становится 1024х1024, а вес 190кб, так что качество по прежнему остаётся дерьмовым:

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

2

5

4

1

UPD: 1


Лицензии

Для тех, кому важно:

  1. DALL-E. В соответствии с контентной политикой, вы владеете изображениями, которые вы создаете с помощью DALL·E, включая право на перепечатку, продажу и продажу товаров — независимо от того, было ли изображение создано с помощью бесплатного или платного кредита.

  2. Midjourney. Согласно правилам, все изображения принадлежат и вам, и Миджи. Приколдэс в том, что те, кто бесплатно генерит, не имеет права на свои картинки. А тот, кто генерит по самому дорогому тарифу, имеет прав чуточку больше, так как Миджорни обещает, что постарается не использовать изображения таких юзеров в своих целях.

  3. Stable Diffusion. Здесь, как и в Далли, вы владеете всеми правами на создаваемые изображения, вот правила, но есть загвоздка — это касается только изображений, сгенерированных на чистом стейбле, без доп.моделей. У кажой модели есть свой автор и он навешивает уже свои правила и свои лицензии, что логично.

  4. Кандинский. Самая интересная лицензия. У вас есть неисключительные права на создаваемые изображения, вы можете ссылаться на Кандинского, но не можете указывать, какой компании он принадлежит, грубо говоря.

  5. Шедеврум. Инфы ноль. Делайте с этим чо хотите.

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

5

4

4

2

0


Заключение

Начнём с оценок:

DALL-E

Midjourney

Stable

Кандинский

Шедеврум

Цена и доступность

2

2

4

5

5

Порог вхождения

4

5

2

1

3

Запрещёнка

2

3

3

4

0

Промпты

5

5

3

5

1

Догенерация и постобработка

3

0

5

2

0

Размер и качество на выходе

2

5

4

1

UPD: 1

Лицензии

5

4

4

2

0

Итого

23

24

25

20

10

Итог удивителен даже для меня на самом деле. В моей голове Кандинский и Далли отстают гораздо сильнее, так что результаты крайне забавны. На Шедеврум, понятное дело, надежды не было никакой.

В целом, я понимаю, почему Стейбл выигрывает, у него огромные перспективы для развития, посмотрите, какие изображения можно делать, если понимать систему работы, скачивать поднастройки и юзать их:

Помимо этого, в Стейбл, как я уже писала выше, можно контролировать позы и эмоции, это очень круто. НО. Для моей работы и для моей нервной системы идеально подходит Миджорни. Поговорим о применимости "здесь и сейчас":

Stable Diffusion подходит для: cерийных иллюстраций (стикеры или концепты персов с позами, разумеется), элементы для моушен-дизайна (самый яркий пример - реклама Колы), создание "фотосессий" для конкретного человека не выходя из дома ну и конечно же контент для взрослых.

Midjourney — рекламная графика, помощь в разработке концепций съёмок людей или брендов, готовые стоковые "фотографии". Помимо этого: референсы для логоготипов, интерфейсов и иллюстраций, создание бесшовных паттернов и много чего ещё, что можно сделать БЫСТРО. Ключевое слово. Это работает быстро, достаточно точно и если мне что-то нужно поправить, то я воспользуюсь фотошопом. Между вариантами "60 баксов" vs "60 часов своей жизни и миллиард нервных клеток" я выберу первое.

Кандинский пока что сырой, но тоже имеет право на существование и развитие. В отличе от Шедеврума. Зачем выкатили ЭТО я вообще понять не могу, особенно с таким невероятным уровнем конкуренции, когда есть нейронки на каждый чих.

Надеюсь, этот обзор был полезен и поможет вам в выборе. Спасибо, что дошли до конца. Всем чмаффки, и подписывайтесь на мой канал.

Комментарии (34)


  1. Hottych
    23.05.2023 13:21

    Согласно роликам на ютубах, народ с MJ уже тоже так наловчился извращаться, что получает то, что хочет. Хотя, конечно, прикручивание дополнительного набора нейронок типа той же controlNet дает очень неплохой буст.

    А вот по красоте картинки SD пока до коммерческих вариантов не дотягивает, увы. Это, конечно же, вкусовщина, но все же.


  1. Mike_666
    23.05.2023 13:21
    +8

    В статье про Stable Diffusion стоило бы упомянуть Control Net, civitai.com, возможность создания своих textual inversion, LoRa и т.п на геймерских видеокартах или в колабе.

    Открытый исходный код + живое сообщество творит такие чудеса, что у закрытых аналогов не остается ни шанса.


    1. 85GB Автор
      23.05.2023 13:21
      +1

      Control Net я описала простыми словами, например, догенерация, да и в целом в статье старалась не душнить.

      А про сообщество и исходный код — спорный момент. Я дизайнер и мне важна работа здесь и сейчас, инстаграмчики для клиентов, рекламные баннеры здесь и сейчас, а не через полгода, когда я разберусь со всеми фишками, миллионом моделей и Лора, и тем более с коллабами. О чём и пишу в выводе, собственно.


      1. bahopp
        23.05.2023 13:21

        благодаря версиям с интерфейсом (например, от DAINAPP с патреона) порог вхождения в сейбл стремится к нулю, абсолютно коробочно - установил и генери, и с хорошей оптимизацией к старому недорогому железу


  1. Hottych
    23.05.2023 13:21

    Что-то похожее на догенерацию в миджорней есть, хоть и сделано через одно место.


    1. 85GB Автор
      23.05.2023 13:21

      только через сиды, а борьба с сидами — это отдельный вид извращений


      1. Hottych
        23.05.2023 13:21

        Ну я больше про аплоад заапскейленых предыдущих генераций. Но сиды тоже часть этого извращения, да.


  1. iskateli
    23.05.2023 13:21
    +9

    название поста "Большое сравнение нейросетей" заблуждает, думал сейчас будет про виды и архитектуры нейросетей, как например здесь и здесь, а тут про генераторы картинок


  1. metradesign
    23.05.2023 13:21
    +1

    Обзор отличный.

    Я не вполне понимала, стоит ли мне вообще кидаться в стейбл, но сейчас думаю что наверное для моих целей не надо пока ????


  1. ZillahGiovanni
    23.05.2023 13:21
    +2

    "Галопом по европам" но пойдет, интересный обзор получился, хотя многое я и так знал, а вот для новичков вполне себе. 8)

    PS Изнываю от любопытства, какие исходники использовали для Кандинский, тела и лица которые он генерит ни с одной сетью не перепутать, вот где самый что ни на есть кринж. 8))


  1. smart_alex
    23.05.2023 13:21
    +4

    Привет, меня зовут Юля, 85GB

    Привет, я Alex, 50TB :)


  1. Fedorkov
    23.05.2023 13:21
    +1

    Чтобы разобраться в этом, нужно потратить ОГРОМНОЕ количество времени.

    Ну или попросить кого-то более технически подкованного. Я где-то час потратил на установку (с доп. моделями) и ещё несколько часов поигрался с промптами из интернета. В итоге начало получаться, на мой взгляд, совсем неплохо.


  1. AlexB17
    23.05.2023 13:21
    +3

    Очень поверхностно. Я понимаю что всей глубины и тонкостей работы с SD очень сложно осознать, но важно было донести что у всех остальных сеток возможностей больше того что вы описали почти нет, им выше уже не прыгнуть, а SD может по качеству уже сейчас выдавать приличные вещи, а если вникнуть в процесс то уже можно выдавать просто космическое качество. Например тот же апскейл через ControlNet Tiles может вам без артефактов сделать 4К+ картинку с высочайшей нативной детализацией, чего другие сетки пока не могут.


    1. Hottych
      23.05.2023 13:21

      С чего это вдруг SD такая могущественная, если технология "представления" плюс-минус та же? Интерфейсы могут гораздо больше, не спорю, и развиваются быстрее, именно за счет того, что она опен сорс. Но тот же апскейл можно другой нейронкой делать без проблем.


      1. AlexB17
        23.05.2023 13:21
        +1

        Интерфейсы это хорошо, в Automatic1111 уже давно были фичи которых нет у конкурентов, но внедрение ControlNet и особенно версии 1.1 позволило очень мощно управлять генерацией и выполнять еще много функций.
        Плюс огромное количество чекпоинтов, эмбеддингов, LoRA и возможность тренировать свои - это все дает повышение качества в итоге и позволяет получить именно то что хочется а не рандомный результат.
        А апскейл всегда лучше сделать той же моделью которой и делалсь генерация, что бы не отличался стиль.


        1. Hottych
          23.05.2023 13:21

          Согласно роликам на ютубах, народ с MJ уже тоже так наловчился извращаться, что получает то, что хочет. Хотя, конечно, прикручивание дополнительного набора нейронок типа той же controlNet дает очень неплохой буст.

          А вот по красоте картинки SD пока до коммерческих вариантов не дотягивает, увы. Это, конечно же, вкусовщина, но все же.


          1. AlexB17
            23.05.2023 13:21
            +2

            Меня больше фотореализм пока привлекает, с этим проблем нет, уже можно делать.
            Вот например мой рендер с апскейлом через контрол нет, тут конечно есть что подправить в фш, это чистый рендер из SD подкрутил только в CameraRAW по цвету слегка.
            https://cdn.discordapp.com/attachments/752489365967601664/1104359707969343594/01066-3758308780.jpg


            1. 85GB Автор
              23.05.2023 13:21
              +1

              Я даже не удивлена, что это именно женщина. И да, я писала, что у Стейбла огромная перспектива, но допустим, если я хочу получить женщину, которая пьёт кофе, то для этого мне сначала нужно обучить нейронку на пьющих кофе других женщинах, а чтоб наверняка, ещё и мужчинах, чтобы нейронка хотя бы понимала, как выглядит чашка кофе, стакан кофе (с ручкой и без) и т.д., иначе она будет жевать носом зёрна. Грубый пример, но надеюсь понятный. Если у вас есть время этим заниматься - почему бы и нет, а я простой смертный диз, я хочу быстрых решений))


              1. AlexB17
                23.05.2023 13:21

                Просто этот рендер кидал в дискорд - что бы не встраивать огромный файл дал ссылку, а так и животных рендерю и ландшафты и много чего еще. Про пьющих кофе людей можно не обучать отдельно, SD прекрасно понимает контекст, если будет криво то инпеинтом поправить не составляет труда, а запущенные случаи инпеинт скетч.
                Я понимаю что нужно время разобраться в инструменте, что бы получать отличные рендеры именно того что вам хотелось, но и поверхностные обзоры генеративных сеток в стиле "я закинул промт "рыжий кот" во все сетки и что из этого вышло" тоже уже начинают подбешивать, их на этом ресурсе уже очень много. У вас обзор вышел более подробным, но субъективные оценки немного портят впечатление, например у SD в запрещенке 3 балла - хотя там вообще нет цензуры, и такие же 3 балла у зацензуренной во все поля Mj.


                1. 85GB Автор
                  23.05.2023 13:21

                  Новая sd зацензурена, и я пишу об этом, поскольку создатели хотят избежать дипфейков и фейк ньюс, которые происходят с Миджи. Но да, это легко обойти, и да, моя оценка субъективна, как и оценка любого другого человека)


                  1. NickyX3
                    23.05.2023 13:21

                    Оно разве не зависит от моделей? F222 помнится прекрасно генерила обнаженку


                  1. AlexB17
                    23.05.2023 13:21

                    Новая 2.1 да, только ей почти никто не пользуется, а версия 1.5 на которой 99% всех кастомных моделей и LoRA основано не зацензурена совсем.


    1. 4manana
      23.05.2023 13:21

      а можно примеры?


  1. Newbilius
    23.05.2023 13:21
    +2

    С одной стороны, какая-то цензура нужна

    Развернёте мысль про этому самую сторону - какая цензура "нужна" внутри инструмента? Word, который банит нехорошие слова на этапе написания или аудио-редактор, которые запикивает то, что считает нужным выглядит как феерический бред. Почему же в системе генерирования картинок такое может восприниматься как "нужное"?


    1. 85GB Автор
      23.05.2023 13:21

      Есть глобальная проблема: фейк ньюс. Сложно ограничить интернет и форс новости о взрыве Пентагона, но легко ограничить инструменты создания фейковых "фоточек". Так что цензура — это сложная тема, и чем больше будет фейк ньюс, тем выше риск блокировки нейронок. Поэтому да, некая цензура нужна, но скорее не отдельные на слова (как сейчас), а на словосочетания.


      1. Ogoun
        23.05.2023 13:21
        +3

        Фейк-ньюс не решится цензурой в нейронках, и даже их полной отменой. Фейк-ньюс один из политических инструментов который появился задолго до современных технологий.


        1. 85GB Автор
          23.05.2023 13:21

          Верно, но хайп порождает больше спекуляций и паники, бюрократические машины медленные и им проще сразу всё взять и отменить, чем разбираться. Тем более с учётом бесконечного дележа рынка в политических и бизнесовых эшелонах


  1. Hottych
    23.05.2023 13:21

    Плюс один, к тому что стоит поменять название.

    И хотелось бы сравнение сложности получения консистентных изображений.


    1. 85GB Автор
      23.05.2023 13:21

      допускаю, но как именно?


  1. arman_ka
    23.05.2023 13:21

    1. Кандинский — бесплатный. Вариант доступа один — через сайт.

    это не правда, недавно даже была статья тут на хабре, есть бот в телеграмме, ещё https://rudalle.ru/ и всякие приложения сбера типа салют.


    1. 85GB Автор
      23.05.2023 13:21

      Рудалли — это древний огрызок, который забросили, а не тот Кандинский, про который речь в посте. Телеграм-боты я не рассматриваю вообще, потому что они есть у каждого захудалого канала, например, построенные на стейбле и утверждающие. что они Миджорни. С салютом вышел промах, проапдейчу


  1. arman_ka
    23.05.2023 13:21

    Stable Diffusion — ад на земле

    кажется ты очень поверхностно всё изучила, для стейбла есть браузерный графический интерфейс, где можно как и везде просто писать промт словами. Ну или не понятно почему ад. Вроде наоборот круто что ты можешь указать что не хочешь видеть на картинке.


    1. 85GB Автор
      23.05.2023 13:21
      +1

      я же указала, что есть сайты, но они платные или интерфейс не имеет такое количество кнопок, как у автоматика. автоматик - самая популярная версия, имеющая наибольший смысл в своём существовании и вес в сообществе


  1. arman_ka
    23.05.2023 13:21

    1. Шедеврум. Здесь прям адуха. И да, это оригинальный размер.

    Тут тоже не доизучала, там увеличенная версия генерится через минуту после выкладывания


    1. 85GB Автор
      23.05.2023 13:21

      На момент написания статьи — точно не через минуту и даже не через час. Качество при этом остаётся таким же дерьмовым, но проапдейчу этот момент, спасибо.