Как материалы, настроения и среды влияют на генерацию круга


Этот текст для тех, кто хотел бы посмотреть на MidJourney в деле, но не может выделить время, чтобы, наконец, попробовать. А ещё для тех, кому нужно отвлечься от рабочей среды и погрузиться во что-нибудь, что увлекает и расслабляет внимание. Материалом для отдыха делимся к старту флагманского курса по Data Science.



Рассвет. Огромное кольцо жёлтого света плывёт в воздухе над двумя силуэтами. Пустынный ландшафт простирается к высокой скале-останцу из песчаника. Позади круг из клубящихся облаков.


Все изображения созданы в MidJourney по указаниям автора.

Midjourney — это генератор изображений с искусственным интеллектом. Входные данные для генерации задаёт человек (обычно с помощью текстовых описаний и параметров, но для этого используются и другие изображения). В программе реализован алгоритм машинного обучения. Для обучения использовано огромное число изображений и данных о них, что позволяет искусственному интеллекту создавать уникальные изображения.


Как и большинство моделей машинного обучения, Midjourney — в какой-то мере «чёрный ящик». Алгоритм программы весьма сложен. Неспециалисту трудно понять, что происходит между получением текстового описания и созданием изображения.


Однако мы вполне можем проанализировать изображения, которые получаем после ввода данных, найти закономерности и сделать предположения. Не факт, что это поможет понять, как работает система, но можно научиться лучше ею пользоваться.


В этом тексте я часто очеловечиваю Midjourney. Я, конечно, в курсе, что она не может ничего обдумывать, представлять, любить, не любить или чувствовать

Круг


Если вы попросите случайного человека нарисовать круг, этот человек, вероятно, возьмёт чистый лист бумаги или разлинованный блокнот и в нём ручкой или карандашом нарисует окружность.


Что же произойдёт, если мы попросим об этом Midjourney?



Тонкий бело-жёлтый сияющий круг, слегка освещающий тёмный густой лес позади него. Бирюзово-оранжевые тона угасающего заката, переходящие в чёрную тьму по краям.


Текстовое описание: A circle («Круг»)


Как видите, в простых описаниях Midjourney сама заполняет множество пробелов. Всё, что человек оставляет неназванным, она сводит к «броскам игральных костей». Прогоните такое описание через систему 10 раз и, вероятно, получите 6–8 совершенно различных во многих аспектах изображений, но все они будут схожими во множестве черт. Судя по всему, что без описания стиля и цвета система по умолчанию склоняется к голливудским бирюзово-оранжевым тонам. А ещё она очень любит облака. Как видите, по умолчанию у неё довольно специфические предпочтения в живописи.


Мы можем попросить её унять свою буйную фантазию. Если мы введём более конкретное описание, результат будет больше похож на то, что нарисовал бы человек.



Набросок угольком в форме кольца. Беспорядочный и незамкнутый, но с акцентом на свет и тени. Линии сетки намечены на листе слабым карандашом. Похоже на страницу из блокнота.


Текстовое описание: A pencil line drawing of a circle («Карандашный набросок круга»)


Несмотря на это, детализация намного выше, чем мы ожидали бы от человека, и для её снижения потребуется немало проб и ошибок.



Воображаемый карандашный круг на белой бумаге, заключённый в больший карандашный круг, который выглядит так, словно кто-то сделал карандашный росчерк на дне кофейной кружки. Темная тень покрывает правый нижний угол бумаги.


Текстовое описание: A simple pencil outline of a circle on white paper («Окружность простым карандашом на белой бумаге»)


Материалы


Midjourney исключительно хорошо имитирует различные материалы. Она знает основные свойства, формы и цвета многих интересных материалов. Играя с ними, мы можем получить очень интересные результаты.





Текстовые описания: A circle made of branches, bronze metal, and grass («Круг из ветвей, бронзы и травы»)





Текстовые описания: A circle made of ice, emerald and gold, and embers and ashes («Круг изо льда, золота с изумрудом и янтаря с золой»)





Текстовые описания: A circle made of liquid gold, wood, and feathers («Круг из жидкого золота, дерева и перьев»)


Указание на материалы и цвета может стать изюминкой ваших текстовых описаний. Экспериментируйте с их сочетаниями, которые могут быть как очевидными, так и невероятными. Посмотрите на материалы вокруг вас. Рядом со мной сейчас лежат мятая бумага, чёрный пластик, шлифованный алюминий, серый плетёный хлопок и голубая пена. Черпайте вдохновение во всём, что вас окружает.


Настроения


Midjourney хорошо работает с поэтическими описаниями и прилагательными, если вам не требуется что-то особенно специфическое, а достаточно просто вызвать соответствующее настроение.


Лучше всего оставить программе простор для интерпретации и позволить ей бросить кости. Как вы можете заметить, различным настроениям соответствуют различные цветовые схемы (синий соответствует меланхолии, красный — ужасу), но часто любимые программой бирюзово-оранжевые тона всё равно проскальзывают.



Тёплые цвета рассвета озаряют зависший в воздухе круг из переплетения густых ветвей. Форма близка к идеальному кругу, на верхних ветвях листва зелёная, а на нижних — бурая и сухая. Снизу на круг кто-то смотрит: виден лишь силуэт. Небо позади круга заволокли облака.


Текстовое описание: A mysterious circle («Таинственный круг»)



Огненное кольцо выглядит как портал в тёмный, жуткий и почти симметричный лес. Очертания ветвей образуют подобие лица, но в темноте нельзя с уверенностью сказать, что это лицо.


Текстовое описание: An evil circle («Круг зла»)



Холодное серо-синее небо, по краям композиции беспорядочно растут деревья. Человек смотрит на бежевое кольцо в небе, наполненное синевой, темнеющей к центру круга, что делает круг похожим на портал в тёмные времена.


Текстовое описание: A circle of melancholy («Круг меланхолии»)



Круг, образованный из негативного пространства. Его оранжевые и бирюзовые цвета напоминают закат, но тёмно-синий внутренний круг похож на дерево, растущее из его вершины. Это дерево проникает в негативное пространство, слегка нарушая его целостность. Края круга неровные. Какая-то фигура смотрит на круг снизу вверх, она как будто видит его во сне.


Текстовое описание: An imaginary circle («Воображаемый круг»)



Круг похож на северное сияние, он дополнен полукругом и светится в ночном небе. Он выглядит как что-то сверхъестественное. Внутри видны очертания ветвей деревьев, которые словно светятся в небесной вышине.


Текстовое описание: An ethereal circle («Эфирный круг»)



Тёмная чёрно-красная пустота, окружённая кругом из песка. Со всех сторон стоят фигуры в чёрно-красных тонах, эти фигуры утопают в чёрно-красном шуме.


Текстовое описание: A horrific circle («Страшный круг»)



На безликой коричневатой стене висит круглая картина. Внешняя часть круга расписана акварельными тёмно-синими и чёрными тонами, а внутренняя образована белёсыми ивовыми ветвями в форме круга с розовыми и оранжевыми цветами, которые распускаются в нижней половине круга.


Текстовое описание: A blossoming circle («Цветущий круг»)


Стили


Стиль по умолчанию, который можно назвать midjourney painting, можно заменить на другой с помощью ключевых слов и параметров. Если вам нужны определённый стиль живописи, 3D-визуализация, глиняная скульптура или определённые стили иллюстрации либо фотографии, Midjourney, с большой долей вероятности, поймёт, о чём идёт речь.



Зернистость чёрно-белой плёнки, перекрывающиеся тени колец и прутьев, резко освещённые контровым светом со стороны экрана.


Текстовое описание: A circle in a film noir («Круг на чёрно-белой плёнке»)



Атмосферно затуманенная ночная улица. Потрескавшийся асфальт подсвечен тонким кругом тёплого света, что напоминает светопись с длинной выдержкой. Он обрамляет исчезающие в тумане скамейки для отдыха в парке, а вдалеке горят рекламные щиты и уличные фонари.


Текстовое описание: A circle rendered in Octane with volumetric lighting and fog («Круг, визуализированный в Octane, с объёмным освещением и туманом»)


Octane — инструмент визуализации 3D-работ, обычно с реалистичными физическими свойствами и освещением. Как вы увидите, он часто используется в Midjourney для детализации определённых сцен. Это видно по тому, как кольцо света освещает асфальт.



Круг, похожий на вид сверху на древний глиняный горшок, выставленный в музее. Яркое освещение сверху подчёркивает резьбу по ободу. В центре круга глина похожа по форме на водоворот, как будто её изготовили на скорую руку на гончарном круге.


Текстовое описание: A circle sculpted from clay («Круг, вылепленный из глины»)



Чернильная окружность с более тонкими линиями, точками и углами. Напоминает технический чертёж или абрис без текстовых указаний или описаний.


Текстовое описание: A technical drawing of a circle («Технический чертёж круга»)



Круглый холст на коричневой стене. Холст зарисован неровными синими, жёлтыми, красными, оранжевыми, зелёными и фиолетовыми мазками. Тона внутри круга становятся более тёмными, но в середине — светлый круг. Это придаёт картине ощущение глубины.


Текстовое описание: A watercolor circle («Круг акварелью»)


Окружение


Если мы просто напишем A circle («Круг»), общая тема композиции будет выбрана по умолчанию. Всё меняется, если мы словесно опишем среду, в которой находится наш объект. Как видите, даже без подробного описания самого объекта окружение может придать ему интересный и даже неожиданный вид.



Пейзажная живопись, луг полон цветов, вдали виднеется одинокое дерево. Вблизи на земле находится круг, нарисованный в перспективе, образованный розовыми, голубыми и оранжевыми цветами.


Текстовое описание: A circle in a field of flowers («Круг на цветущем лугу»)



В нижней части композиции на море бушует шторм, фон закрыт серыми тучами. Вихрь волн в центре композиции образует круг, физически невозможный, но грозный и прекрасный.


Текстовое описание: A circle in stormy seas («Круг в бушующем море»)



Небольшая лесная поляна с разноцветной листвой на заднем плане. На поляне — круг из грунта, около двух метров в поперечнике, выглядит так, словно кто-то ходил здесь кругами дни напролёт и вытоптал всю траву до сухой земли.


Текстовое описание: A circle in a forest («Круг в лесу»)



Более абстрактная пейзажная живопись; большую часть композиции горного пейзажа занимает бескрайнее небо. Между горами завис в воздухе огромный оранжевый круг, нижняя часть которого теряется в тумане и за ближайшей горной цепью.


Текстовое описание: A circle in the mountains («Круг в горах»)



Круг яркого света, похожий на арку или дверь, освещает узкий и тёмный городской закоулок. В закоулке нет других источников света, кроме этого круга и приглушённого красного света из окон домов.


Текстовое описание: A circle in a dark alley («Круг в тёмном закоулке»)



Огромное круглое помещение в стиле модерн, возможно, вестибюль, с отражающим оранжевым кругом на полу, тёмным внешним кольцом цвета морской волны. Несколько офисных кресел повёрнуты к окну в дальней части помещения. Оранжево-белое кольцевое освещение обрамляет внешний край потолка. Окно окружают синие и жёлтые стеновые панели. В помещении нет людей и признаков их присутствия.


Текстовое описание: A circle in a corporate office («Круг в офисном здании»)


Соотношение сторон композиции


Соотношение сторон заметно влияет на создаваемые композиции и изображения. Если вы решили напечатать любую картинку на формате А2 или поставите её фоном на компьютер/телефон, сначала ознакомьтесь с соотношением сторон листа и ориентируйтесь на него. Потому что подогнать под эти форматы, скажем, квадратное изображение, чрезвычайно трудно.




Текстовые описания: A circle in (9:16) and (16:9)


Художники


Midjourney может подражать стилю конкретного художника. С этической точки зрения, это самый спорный способ применения искусственного интеллекта. Особенно если предполагается любое коммерческое использование. Люди могут копировать стиль других людей и делают это, но, когда это поручают искусственному интеллекту, становится неясно, где искать грань, которую нельзя переходить. Больше всего это (по понятным причинам) волнует современных художников и всех тех, кто достаточно известен, чтобы система могла их распознать. С юридической точки зрения и позиций авторского права, такие работы считаются уникальными (на сегодня), что может вызвать неодобрение людей.





Текстовое описание: A circle in the style of Vincent Van Gogh, H.R. Giger, Jackson Pollock («Круг в стиле Винсента Ван Гога, Ханса Руди Гигера, Пола Джексона Поллока»)


Такой же «серый статус» и у популярного описания rending on Artstation («популярный на Artstation»), которое усредняет стиль не одного конкретного художника, а большую часть работ и стилей, что можно встретить на Artstation.com. Этот ресурс очень популярен у художников, которые участвуют в создании фильмов, игр, концепт-арта и иллюстраций.



Массивное кольцо жёлтого света чётко вырисовывается в закатном небе. Оно окружено оранжевым ореолом и расположено прямо над скалистыми горами посреди пустыни. Напоминает «Близкие контакты третьей степени», но гора шире и ниже пресловутой «Башни дьявола».


Текстовое описание: A circle trending on Artstation («Круг, популярный на Artstation»)


Комбинации и эксперименты


Эта статья затрагивает лишь малую часть бесконечных возможностей программы, которые определены лишь вашим воображением, вкусом и направлением деятельности. Сочетайте все описанные нами концепции со многими другими, чтобы создавать уникальные изображения, способные радовать и вдохновлять вас и других.



Тёмно-зелёный туманный лес со сплетающимися чёрными ветвями. Золотой портал находится в правой части композиции, маленькие огоньки летают вокруг портала как светлячки, возможно, они притягиваются к нему.


Текстовое описание: A mystical circle made of tree branches and liquid smoke in the trees of a lush jungle at night. Terrifying and magical. Gold accents («Мистический круг из ветвей деревьев и жидкого дыма в густых джунглях ночью. Пугающий и волшебный. Акцент на золотом») (16:9)



Огромный деревянный круг лежит на песке, его обтекают песчаные волны, выглядит так, как будто он лежит тут много месяцев. Чёрно-белая фотография.


Текстовое описание: A black and white photograph of a lonely wooden circle, abandoned in the sand dunes («Чёрно-белая фотография одинокого деревянного круга, брошенного среди песчаных дюн») (16:9)



Адский апокалиптический пейзаж из тёмного фэнтези, густой дым и огонь собираются в круги, тёмные силуэты блуждают по заболоченной пустоши.


Текстовое описание: A circle of fire and smoke in a forgotten wasteland abyss» («Круг из огня и дыма в забытой пустоши над бездной) (16:9)


Спасибо, что прочитали.


А если хотите обрести крепкую опору под ногами — смотрите программы обучения Data-профессиям:



Новогодняя акция — скидки до 50% по промокоду HABR:



Комментарии (16)


  1. akakoychenko
    07.12.2022 19:08
    +9

    Кажется, будто мощная фича таких сетей, - произвольный промпт, становится их проблемой, когда видишь, какие тонны нелогичного бреда в промптах вынуждены писать люди, чтобы получить именно тот стиль.

    К примеру, вот пример хвоста, который последовал за объективным описанием, который ввёл художник, чтобы стилизировать свое фото (и получил хороший результат)

    photo realistic, cinematic shot, cinematic grading + cinematic post-processing + photo taken by ARRI, photo taken by Sony, photo taken by Canon, photo taken by Nikon, photo Taken by Sony, Photo taken by Hasselblad + Photorealistic, Photorealistic + Incredibly detailed, sharp, detail + Meticulously designed environment + Professional lighting, Shooting lighting + disco, bright, moody environment + 35mm, 50mm, 85mm , 100mm + lightroom, behance Photography, unsplash + long Exposure - q 2 —v 4

    Если вчитаться в этот бред (ибо тут масса прямо противоположных утверждений, как, например, 35, 50, 85 и 100 миллиметров фокусного расстояния), то становится понятно, что это все - попытка обойти отсутствие иерархии понятий в сети. Очевидно, что, если перевести промпт на человеческий язык, то это будет что-то вроде "дай мне профессиональный кинематографичный снимок, сделанный на профессиональное оборудование". Но, так, как сеть неспособна к такому обобщению, то человек вынужден писать что-то вроде "дай мне стиль из изображений, где в тегах есть фокусное расстояние или производитель камеры, или указано популярное у фотографов ПО потому, что есть надежда, что на этом изображении был профессиональный кадр, а не что-то вроде изображения товара, или очередной фотки любимой собаки на телефон".

    Кажется, если ИИ сделает ещё один шаг (возможно, даже на основе текстовых массивов, а не фотографий), и построит иерархию классов, то тогда все это начнёт работать реально просто и интуитивно


    1. Guron1989
      07.12.2022 21:31
      +5

      Почти как искать товары на али


      1. snuk182
        08.12.2022 00:36

        Интересно было бы скормить описание произвольного алишного продукта (желательно прогнанное через переводчик туда-назад) и посмотреть на результат...


        1. DGG
          08.12.2022 11:07
          +1

          Я в своё время скармливал "kandinsky12b" в дискорде описания с Алиэкспресса. Он убедительно изображал "фотографии товаров с маркетплейса", иногда даже тех, что описаны. Даже какие-то подобия вотермарок иероглифами пытался изображать. Скорее всего там в обучающих наборах было много фотографий с маркетплейсов / описание товара.

          И часто результат был лучше чем в случае человеческого описания.

          Пример

          "винтажное кольцо феи лягушки ручной работы, ювелирные изделия, кольцо феи лягушки, свадебный подарок для лучших друзей"


    1. Celsius
      07.12.2022 22:14

      На самом деле проблемы нет. Надо просто понять какой логикой пользовались при создании обучающих данных, открыть промпты, отсортировать по частоте использования и вставлять подходящие к контексту. Чтобы заставить ИИ читать мысли придется использовать другие обучающие данные и прикрутить движок, который будет преобразовывать простую человеческую речь в облако тегов на основе культуры и языка, четкой классификации их в латентном пространстве и еще компенсировать это посредством уточняющих запросов.

      Вот перенос стиля работает прекрасно, можно засунуть каляки-маляки, добавить описание и несколько раз прогнав получить хороший результат.
      Тут дело в том, что фазовое пространство невообразимо огромное и сети легче опираться на картинку с текстом, чем на текст, который несет гораздо меньше информации.


      1. akakoychenko
        07.12.2022 23:04
        +1

        Если отбросить проблемы с юзабилити, то лично я вижу проблему в том, что неумение сети выстраивать иерархию классов приводит к радикальному снижению размера обучающих выборок. Условно, в обучающей выборке есть 1 млрд профессиональных фотографий, но у них нет единого тега "professional photo". Вместо этого сеть обучается под тысячи классов вида "35mm", "photo taken by Nikon", каждый из которых будет иметь достаточно скромную выборку. И, вопрос в том, выйдет ли, даже перечислив их все в промпте (что, кажется, невозможно из-за физического ограничения на кол-во символов), получить на выходе тоже качество, как если бы сеть изначально понимала, что это один класс.

        То есть, да, верю, что можно создать некплохой юзабилити, если сделать генератор промпта по человекочитаемому описанию, но, мне кажется более перспективным выстраивать иерархию классов еще на этапе разметки тегов


        1. Celsius
          08.12.2022 07:41
          +1

          Проблема еще глубже.
          Нейросетка обучается при помощи вдалбливания силой статистики и малая выборка некоторых классов вообще не позволяет их воспроизводить.
          Далее, нет качественного кодирования абстракций. Да, кое-что оседает в трансформерах, но довольно жиденько и не системно. Взять к примеру руки, человек имеет представление о строении конечностей и может довольно достоверно их изобразить, а у сетки нет воображения, на вход даже опорные точки не подаются, в результате получаем лишние пальцы и перетекание одних предметов в другие. А с лицами намного проще, в обучающих данных был избыток мордашек, опорные точки имеют примитивную структуру и получаем очень качественные лица в окружении стремной мазни.


          1. akakoychenko
            08.12.2022 10:59
            +1

            К слову, ещё задолго до появления сетей последнего поколения видел статью, где учёные смогли визуализировать образ каждого отдельного класса какой-то из тогдашней актуальной сети. И, к примеру, образ гантели шёл в комплекте с рукой, ибо мало было картинок в выборке с гантелью без руки.

            Тогда меня ещё удивило, почему, никто (в виде костыля) не нагенерировал реально огромную выборку 3д рендеров очевидных понятий, чтобы разработчики нейросетей могли раз и навсегда вдолбить своей сети, что у людей должны быть симметричные конечности, что гантели идут в комплекте без рук, что у зданий, как правило, ритмичные и ровные окна и прямые углы, и так далее. Хотя, наверное, такой датасет только углубит проблемы, позволив разработчикам сетей в принципе не решать проблемы кодирования абстракций


    1. unwrecker
      08.12.2022 00:47
      +7

      Старая шутка на новый лад :)

      Заходит сеошник в нейросеть, и говорит:

      photo realistic, cinematic shot, cinematic grading + cinematic
      post-processing + photo taken by ARRI, photo taken by Sony, photo taken
      by Canon, photo taken by Nikon, photo Taken by Sony, Photo taken by
      Hasselblad + Photorealistic, Photorealistic + Incredibly detailed,
      sharp, detail + Meticulously designed environment + Professional
      lighting, Shooting lighting + disco, bright, moody environment + 35mm,
      50mm, 85mm , 100mm + lightroom, behance Photography, unsplash + long
      Exposure - q 2 —v 4


      1. s_f1
        08.12.2022 02:20
        +2

        Заходит сеошник в нейросеть,
        а она ему как раз


      1. Refridgerator
        08.12.2022 08:54
        +1

        А в ответ:

        Так сойдёт?

        (Реально самый первый результат от stable diffusion на этот запрос с припиской «woman»)


    1. Tyusha
      08.12.2022 08:38
      +5

      Вы не понимаете. Теперь в этом и состоит сакральное мастерство художника: не надо уметь рисовать — надо уметь составить описание. Не каждый сможет "натэгать" одухотворённую картину. Это же новый вид искусства, наверняка требующий таланта и невиданных ранее способностей. Появятся ли в этом свои новые гении? Будут ли продаваться их работы на Сотбис?

      UPD: Может пора всё бросить к чертям и заняться? Ещё лучше конечно начать "продавать лопаты" — открыть соответствующие курсы для детей и взрослых, жаждущих карьеры в новой перспективной области. Верно ведь, Skill Factory?


    1. DonAgosto
      08.12.2022 09:05
      +6

      Кажется, будто мощная фича таких сетей, — произвольный промпт, становится их проблемой, когда видишь, какие тонны нелогичного бреда в промптах вынуждены писать люди, чтобы получить именно тот стиль.
      уже частично решили эту проблему.
      с помощью другой нейросети ) image
      habr.com/ru/post/703568


  1. emaxx
    07.12.2022 21:13
    +8

    Просто невероятно, какого прогресса за последние пару лет достигли эти технологии.


  1. Refridgerator
    08.12.2022 05:53
    +5

    Мне показалось, что в большинстве случаев вместо круга нейросеть рисует кольцо.


  1. mklenov9
    08.12.2022 15:27
    +2

    Всегда интересно читать статьи про нейросети для генерации картинок(если в них много красивых картинок). Также мне, как человеку у которого с рисованием всё совсем плохо, приятно осознавать что возможно генерировать красивые картинки без навыков рисования.