В нашем мире мы можем сделать всё, что захотим. Всё что угодно.

Боб Росс, The Joy Of Painting, сезон 29, эпизод 1

Однажды, когда я наблюдал за ярким закатом в Сиэтле, внезапно включилось моё воображение. Потусторонний оттенок неба пробудил воспоминания о чём-то из научной фантастики. Дымчатый оранжево-сиреневый завораживал.

Я представил огромный инопланетный объект, висящий в горящем оранжевом небе над давно покинутым Сиэтлом, здания которого покрыты зарослями.

Тем же вечером я за несколько часов создал вот такое изображение:


Простите за низкое разрешение — к сожалению, у моего GPU всего 12 ГБ памяти.

Поскольку очевидно, что я талантливый художник, имеющий за плечами буквально десятки минут опыта, мне захотелось поделиться тем, как я создал данный шедевр.

Этап 1: небо


Давайте начнём с этого огненно-оранжевого неба. Вполне подойдёт небольшой градиент.


На мой взгляд, выглядит красиво. Это соответствует оттенкам изображения, возникшего в моём мозгу.

Этап 2: земля


Теперь нам нужна земля. Мы будем создавать красивую сцену со старым городом, но мне бы хотелось начать с зелёной земли, а позже заполнить её зданиями.


Этап 3: фон


На любом изображении Сиэтла обязано присутствовать два элемента: Спейс-Нидл и гора Рейнир.

Давайте добавим эту гору.


Прекрасно.

Этап 4: передний план


Думаю, чтобы оживить передний план, подойдут красивые тёплые цвета осени. Давайте добавим их где-то ближе к низу.


Пусть эти пятна не совсем походят на деревья. Мы всегда можем передумать и сделать их чем-нибудь другим.

Самое важное, чему мы хотим вас научить — наслаждаться своей работой и хорошо проводить время.

Боб Росс, The Joy Of Painting, сезон 14, эпизод 1

Этап 5: город


Теперь давайте добавим здания, пусть их будет столько, сколько вам захочется.

Я хочу немного сместить Спейс-Нидл, чтобы она контрастировала с горой Рейнер.


Всё выглядит очень здорово.

Этап 6: первый раунд Stable Diffusion


Теперь, когда у нас есть красивый черновик рисунка, давайте пропустим его через img2img Stable Diffusion и посмотрим на результат.

Рекомендую выполнять сэмплирование с несколькими разными seed и выбирать тот результат, который понравится больше.

Наверно, лучше начать с простого. Вместо того, чтобы перегружать строку полным запросом (инопланетный корабль, огненно-оранжевое небо, покрытые зарослями здания), давайте создадим картину Сиэтла, на основе которой потом продолжим работу. Значение ddim_steps можно оставить низким, около 50. Мы увеличим его ближе к завершению.

scripts/img2img.py –n_samples 1 –n_iter 1 –prompt “Digital fantasy painting of the Seattle city skyline. Vibrant fall trees in the foreground. Space Needle visible. Mount Rainier in background. Highly detailed.” –ddim_steps 50 –seed 47004 –scale 7 –strength 0.80 –init-img step5.png

«Цифровая фэнтези-картина с очертаниями города Сиэтл. На переднем плане яркие осенние деревья. Видна Спейс-Нидл. На фоне гора Рейнер. Высокая детализация».


Мне нравится этот результат, однако я не очень рад, что Спейс-Нидл сместилась влево. Похоже, с разными seed она перемещается, поэтому пока сохраним её, а позже подберём seed с позицией получше.

Мы не совершаем ошибок, у нас происходят счастливые случайности.

Bob Ross, The Joy Of Painting, сезон 3, эпизод 5

Я предпочёл в первом раунде присвоить высокое значение strength, чтобы Stable Diffusion на полную силу использовала своё воображение. Если оно окажется слишком диким (например, нарисует несколько копий Спейс-Нидл), то strength можно уменьшить.

Для этого потребуется экспериментировать; кроме того, не все seed дают идеальные результаты. По моему опыту, если попробовать около десятка seed, то один-два вам понравятся.

Этап 7: делаем картину постапокалиптической


Теперь давайте превратим этот красивый город в руины.

Так как на предыдущем изображении чётко видны очертания Сиэтла, в следующей строке запроса можно уменьшить упор на «Seattle». Мы упомянем его, чтобы Stable Diffusion не слишком отдалилась от темы, но больший упор мы сделаем на новую часть, то есть аспект «постапокалиптичности».

scripts/img2img.py –n_samples 1 –n_iter 1 –prompt “Digital Matte painting. Hyper detailed. City in ruins. Post-apocalyptic, crumbling buildings. Science fiction. Seattle skyline. Golden hour, dusk. Beautiful sky at sunset. High quality digital art. Hyper realistic.” –ddim_steps 100 –seed 47200 –scale 9 –strength 0.80 –init-img inputs\step6.png

«Цифровая дорисовка. Гипердетализация. Город в руинах. Постапокалиптические осыпающиеся здания. Научная фантастика. Очертания Сиэтла. Предзакатный час, сумерки. Красивое небо на закате. Высококачественный цифровой арт. Гиперреализм».


Сразу заметно следующее:

Спейс-Нидл переместилась на своё место, примерно к линии одной трети изображения.

Гора Рейнер пропала, как и деревья с переднего плана.

Если бы мы хотели сохранить их, это можно было бы сделать. Просто дополнить строку запроса, упомянув эти элементы, и, возможно, уменьшить свойство strength до 0.70, чтобы ограничить творческую свободу Stable Diffusion.

Однако мне вполне нравится этот «творческий выбор» Stable Diffusion. С этой точки обзора деревья бы казались не на своём месте, а на картине слишком сильная дымка, поэтому гора Рейнер, скорее всего, не была бы видна. Кроме того, тёплый цвет деревьев стал зловещим свечением, а зелёная земля покрылась зарослями. Поэтому мне кажется, что это улучшило картину.

Вкратце о строках запросов


Если вы зайдёте в любое сообщество, посвящённое генерации изображений, то заметите, что во многих (в большинстве?) строках запросов упоминаются имена реальных художников.

Например, в этом творении, использующем следующую строку запроса (prompt):

gigantic extraterrestrial futuristic alien ship landed on  the kingdom of Julius Caesar, roman historic works in brand new condition, not ruins, hyper-detailed, artstation trending, world renowned artists, historic artworks society, antique renewel, good contrast, realistic color ,cgsociety, by <strong>greg rutkowski,gustave dore</strong>, Deviantart

«гигантский инопланетный футуристический корабль приземлился на владения Юлия Цезаря, римские исторические здания в совершенно новом состоянии, не руины, гипердетализированные, тренды artstation, знаменитые художники, общество исторических картин, восстановление антиквариата, хорошая контрастность, реалистичный цвет, грег рутковски, гюстав доре, Deviantart».

Похоже, добавление имён конкретных художников на самом деле улучшает результат.

Однако мне неловко пользоваться этим. Законно ли это? Абсолютно. Этично ли это?… Вероятно, да. Но всё равно это почему-то кажется мне неправильным.

Результаты работы этой модели настолько хороши, что введя в поисковике «Greg Rutkowski's art», человек может найти результаты, в которые включены и настоящие работы художника, и сгенерированные искусственным интеллектом. И я не хочу вносить в это свой вклад. На самом деле, учитывая что ИИ-модель может создавать подобия работ Грега Рутковски за считанные секунды, а реальному Грегу, вероятно, требуется много часов работы, нетрудно представить, что вскоре при запросах его работ поисковики будут выдавать больше сгенерированных ИИ картин, чем реальных. Это немного меня смущает.

Когда-нибудь эта технология окажется настолько вездесущей, что люди будут ожидать увидеть в результатах поиска сгенерированные ИИ изображения. Но на данный момент я предпочитаю предоставить Stable Diffusion возможность творить искусство без копирования конкретного художника.

Да, возможно, это старомодно, учитывая, что эту технологию можно использовать и её будут использовать для куда более плохих вещей. Но сейчас, в августе 2022 года, я не хочу вмешивать во всё это художников.

Учитывая всё сказанное, следующий раздел может показаться лицемерным, поскольку я приказываю модели создать что-то, напоминающее корабль из «Звёздных войн». В данном случае я считаю, что «Звёздные войны» за последние сорок с лишним лет настолько укоренились в популярной культуре, что использовать их в качестве образца не грешно.

Этап 8: космический корабль


Вернёмся к нашему творению:


Возможно, вам захочется нарисовать космический корабль прямо на получившемся результате.

И я рекомендую вам сделать это! Получайте удовольствие и экспериментируйте.

Но насколько я понял, Stable Diffusion не очень хорошо справляется со «смешиванием» разного уровня качества. Её сбивает с толку, когда на одной картине присутствует безукоризненная Спейс-Нидл и детский рисунок космического корабля в стиле MS Paint.

Давайте продолжим работать в слоях и составлять изображение понемногу.

Вот мой потрясающий корабль:


Прошу прощения у Джорджа Лукаса.

Он послужит хорошей отправной точкой, дальше мы можем развить идею.


scripts/img2img.py –n_samples 1 –n_iter 1 –prompt “Digital fantasy science fiction painting of a Star Wars Imperial Class Star Destroyer. Highly detailed, white background.” –ddim_steps 50 –seed 47001 –scale 7 –strength 0.80 –init-img step7.png

«Цифровая научно-фантастическая фэнтези-картина имперского Звёздного разрушителя из Звёздных войн, высокая детализация, белый фон».

Давайте просто закинем космический корабль на изображение:


Как будто он не на своём месте. Давайте сгладим его, снова пропустив через Stable Diffusion.

Этап 9: второй раунд Stable Diffusion


Этот раунд Stable Diffusion позволит нам решить две задачи:

  • Вписать корабль в изображение
  • Реинтерпретировать корабль с учётом контекста изображения

Если вам очень полюбился корабль из этапа 8, то вы можете выполнить раунд с очень низкой strength, чтобы Stable Diffusion не слишком его изменила.

Однако лично мне захотелось установить strength примерно на 0.80 и я оказался доволен результатом. Модель склонна удивлять меня, выдавая что-то лучше, чем я представлял.

Давайте пропустим изображение через несколько seed и посмотрим, что получится.

В моих результатах получилось несколько изображений с отличным кораблём, несколько изображений с красивым городом, но ни одного изображения с отличным кораблём и красивым городом.

Красивый город, корабль не очень:


Отличный корабль, так себе город:


Так… давайте просто скомбинируем их!

На этом холсте вы творец, поэтому решайте сами, что хотите добавить в этот мир.

Боб Росс, The Joy Of Painting, сезон 10, эпизод 12

Мы возьмём отличный корабль, вставим его в красивый город и выполним проход с низкой strength, чтобы не слишком сильно изменить тот и другой.

Вот как выглядит «скомбинированное» изображение, которое я на скорую руку создал в GIMP:


Если уж мы редактируем картину в GIMP, неплохо будет добавить прямо посередине несколько летящих вдалеке птиц.

Давайте вырежем эту часть изображения и нарисуем на ней птиц:


А затем пусть Stable Diffusion поколдует над картиной:


scripts/img2img.py –n_samples 1 –n_iter 1 –prompt “Digital Matte painting. Hyper detailed. Brds fly into the horizon. Golden hour, dusk. Beautiful sky at sunset. High quality digital art. Hyper realistic.” –ddim_steps 50 –seed 47407 –scale 9 –strength 0.75 –init-img step14a.png

«Цифровая дорисовка. Гипердетализация. Птицы летят к горизонту. Предзакатный час, сумерки. Красивый город на закате. Высококачественный цифровой арт. Гиперреализм».

Соединим всё вместе копипастингом:


И, наконец, последний проход с низкой strength, чтобы соединить всё это вместе и создать наш шедевр:


scripts/img2img.py –n_samples 1 –n_iter 1 –prompt “Digital Matte painting. Hyper detailed. City in ruins. Post-apocalyptic, crumbling buildings. Science fiction. Seattle skyline. Star Wars Imperial Star Destroyer hovers. Birds fly in the distance. Golden hour, dusk. Beautiful sky at sunset. High quality digital art. Hyper realistic.” –ddim_steps 100 –seed 47413 –scale 9 –strength 0.20 –init-img step14c.png

«Цифровая дорисовка. Гипердетализация. Город в руинах. Постапокалиптические осыпающиеся здания. Научная фантастика. Очертания Сиэтла. Парит Звёздный разрушитель из Звёздных войн. Вдалеке летят птицы. Предзакатный час, сумерки. Красивое небо на закате. Высококачественный цифровой арт. Гиперреализм».

Обратите внимание, что для красивого смешения достаточно задать низкую strength — 0.20.

Мысли в заключение


4,2 гигабайта.

4,2 гигабайта.

Именно столько весит модель, благодаря которой стал возможным недавний прорыв в искусственном интеллекте.

4,2 гигабайта чисел с плавающей запятой, в которых каким-то образом закодировано столь многое из известного нам.

Да, я ударился в лирику. Нет, я не провозглашаю появление сильного ИИ, который будет нами править. Я просто любуюсь красотой ситуации, пока она нова и свежа.

Потому что новой и свежей она будет недолго. Мои ощущения не сильно отличаются от тех, которые возникли у меня при отправке первого электронного письма: бабушка уже получила моё сообщение? Во Флориде? За считанные секунды? Это было самым волшебным, что я видел в детстве. А теперь электронная почта — самая скучная и повседневная часть моего дня.

Многие уже говорят о практическом использовании. Преступном использовании. Преуменьшении важности. Преувеличении важности. Об искажениях. О монетизации. О демократизации — на самом деле это всего лишь монетизация с более удобным для маркетинга названием.

Я не буду говорить обо всём этом. Я просто думаю об этих 4,2 ГБ. Насколько это мало по сегодняшним меркам. Такой маленький объём, в котором хранится так много.

Сколько изображений (реальных фотографий и картин) пропущено через автокодировщик, постепенно сужающий воронку информации, пока из неё не будет выделен какой-то смысл? Сколько раз нужно обучить модель устранять шум в изображении, пока она не поймёт, чем тигр отличается от леопарда? Кажется, теперь мы это знаем.

Наверно, теперь мы будем находиться на гребне этой волны, пока магия не станет такой же распространённой и скучной, как электронная почта. Так и будет.

Комментарии (77)


  1. zenhower
    01.09.2022 15:55
    +20

    У меня назрел вопрос. Вам комфортен просмотр таких картинок? Потому что при просмотре картинок от нейросетей я ощущаю чувство дискомфорта (от тошноты до отвращения). Неестественность картинок я улавливаю явно и четко. Это и отталкивает меня от их самостоятельной генерации. А уж то, что их начинают использовать в быту - меня просто пугает.


    1. veocode
      01.09.2022 16:35
      +108

      Тех, кто вырос на мультиках Арменфильма, такими картинками не напугать


      1. novoselov
        01.09.2022 20:39
        +12

        Ох, тот кто сможет настроить нейросеть так чтобы она конвертировала мультфильмы (например Чебурашку) в стиле Арменфильма однозначно откроет портал в Ад.


        1. Alexey2005
          01.09.2022 21:31
          +4

          Увы, сетки пока что не настолько креативны, чтобы переносить стилистику персонажей, а не общий стиль рисовки. И попытка скопировать стиль с Арменфильма при помощи нейронки выглядит как применение кривого Cellshading-фильтра, при том что сами персонажи не меняются вовсе:

          Как-то так


        1. OptimumOption
          02.09.2022 07:26

          Хм, а было бы интересно взглянуть на новые "Утинные истории" глазами Арменфильма :D


    1. ele_gend
      01.09.2022 16:37
      +7

      Если у вас лапки, но очень хочется визуализировать свою фантазию, то почему бы и нет? Даже то, что рисуют люди не всегда ощущается естественно.


      1. zenhower
        01.09.2022 16:47
        +4

        Даже произведения Сальвадора Дали для меня выглядят "нормальнее", чем большинство сгенерированных.


        1. ivegner
          02.09.2022 17:30

          Потому что они и есть "нормальнее". В работе настоящего художника всегда присутствует целостность, а порождающие модели создают кадавров, которыми бы даже Витя Франкенштейнский побрезговал.


    1. Torkins
      01.09.2022 16:50
      +21

      Тут про аудиторию. Например: я - человек, который в прошлом перечитал и пересмотрел овердохрена фантастики и подобного фанарта - конечно, человеческого. И в то же время - я художник примерно на 0%, т.е. ваще ни разу. Ни вкуса, ни цвета. Так вот, я от последней картинки вообще ничего не "улавливаю". Обычная картинка к средней книжке какого-нибудь Булычева или Злотникова. Или арт для форзаца - такого там раньше много печатали для передачи атмосферы. Так что, считая себя целевой аудиторией, заявляю, что такое зайдет на все 100.

      И да, жалко (а жалко ли?), что автор прав на тему неизбежности обыденности изначально космических технологий. Теперь студенты будут создавать крутые картины по 500шт за пятак на перемене...


      1. Sergeant101
        01.09.2022 18:32
        +3

        Абсолютно согласен, вполне средненькое изображения для заурядной фантастики - готовый форзац для книги "Космические путешествия к центру галактики".


      1. Sin2x
        02.09.2022 11:01
        +1

        У НФ-журнала "Если" в своё время были такие же обложки.


    1. Wizard_of_light
      01.09.2022 17:07
      +3

      Думаю, тут нужен двойной слепой тест. Возможно у вас от определенного стиля рисовки такое чувство, а не от нейросетей.


      1. zenhower
        01.09.2022 17:16
        +2

        Я не могу точно описать ощущения, но это нельзя назвать неприятием какого-то стиля. Независимо от того портрет это или пейзаж, при любой цветовой гамме - неприятие картинки всегда подтверждается фактом применения нейросетей. Что-то родственное с эффектом «зловещей долины», наверное.


        1. engine9
          01.09.2022 22:46
          +3

          Тоже так считаю. Нейросеть рисует так, будто это галлюцинирующий мозг "дорисовывает" детали в светотеневых пятнах, но делает это слишком формально, без выдумки, не соблюдая масштаб объектов и деталей на них:

          А вот пример изображения, созданного художником. Помимо композиции тут есть осмысленные детали, пропорциональность, а главное — сюжет.


          1. GospodinKolhoznik
            02.09.2022 00:27
            +4

            Нижняя картинка щикарная, залип. Прямо захотелось туда в тот мир.

            Но справедливости ради далеко не все художника так могут. Технически многие, но выстроить такую целосность композиции и стиля могут далеко не все.

            Верхняя, конечно, пипец.


            1. engine9
              02.09.2022 12:13
              +1

              Я уже сегодняя её разглядывал и такой "Стоп, нафига ему в автомобиле на самом большом экране осциллограмма какой-то скучной синусоиды!?".


              1. GospodinKolhoznik
                02.09.2022 12:50
                +2

                Во-первых, это красиво.


              1. Torkins
                02.09.2022 14:00
                +2

                Вот только хотел про "зачем ему в машине осциллограф?" написать ))


              1. Dvlbug
                04.09.2022 11:25

                Может визуализация, как в плеерах?


            1. engine9
              02.09.2022 12:14

              Верхняя это заготовка для нижей, эдакий продуктр работы робота-подмалёвщика.


            1. Torkins
              02.09.2022 14:05
              +1

              А вы еще не в нем? ) Небоскребы, пробки. Полуруль и экран по центру - как в Тесле. Стрелки, для олдфагов, которым хочется теслу, но не могут без стрелок. Сам факт того, что человек все еще ведет машину - уже настораживает. Явно, очень давно рисовали, судя по тумблерам, форме руля и общей ламповости.

              Ну и гашетка, на которую водитель давит - прекрасна)


              1. GospodinKolhoznik
                02.09.2022 14:27
                +1

                А вы еще не в нем? )

                Нет, я в каком то другом, неправильном будущем.


            1. combo_breaker
              02.09.2022 14:22
              +1

              Поддерживаю, далеко не все нарисованное людьми гениально. Пусть картинки нейросетей не без изъянов, но тоже могут нравиться людям. И уж точно абсолютное большинство людей и близко не сможет нарисовать то, что они сами могут легко сгенерировать с помощью нейросетей.

              Киберпанк на советских открытках


          1. crea7or
            02.09.2022 00:56
            +3

            Есть большая вероятность, что наш мозг так и хранит запомненное как в картинке наверху. Так как пиксели в мозгу не запоминаются, а имеются какие-то подобия образов. Во сне же как раз такая чушь снится, когда сознание не подключается и рисуется как есть.


            1. engine9
              02.09.2022 12:16
              +4

              Да. Я пару раз проваливался (во сне) в отладочный режим собственного мозга и мог ходить по локациям, которые и выглядели примерно как на картинке, генерированной нейросетью.


              1. F1eex
                02.09.2022 13:27
                +1

                Вот точно, изображения от нейросетей похожи на картинки из снов.


          1. Firsto
            02.09.2022 07:38
            +1


            1. engine9
              02.09.2022 12:17

              Классно, вот это очень похоже на работу художника-человека. Но если нейросеть учили на базе данных какого-нибудь Artstation, то не удивительно что она человеческие художественные приёмы имитирует.


    1. mxr
      01.09.2022 17:15
      +4

      Мне наоборот картинка доставляет, расстраивают только мелкие огрехи.


    1. NemoVors
      01.09.2022 17:57

      Через раз. В этом посте не было никаких проблем, если не вглядываться в детали города.

      А на некоторых картинках корявость сразу выдает нейросеть. Причем рядом с ней может быть картинка из того же сета той же сети, не вызывающая отторжения. Зависит от рандома, наверное. Ну и от наличия/отсутствия людей.


      1. ElvenSailor
        02.09.2022 14:21
        +1

        огрехи могут быть явно видны, а могут и не быть.

        А ещё их можно подправить ручками, это сильно быстрее, чем рисовать с нуля, да ещё и когда ты хужожник от слова "худо" )


    1. Nehc
      01.09.2022 20:54
      +2

      >>> Неестественность картинок я улавливаю явно и четко

      Вы уверены, что это не является самовнушением? Каким образом вы отличаете «неестественность картинки»? В данном конкретном посте картинки, на мой взгляд, довольно адекватны. На некоторых доменах, типа лиц и рук SD действительно лажает и результат выглядит криповато, но, что б везде…

      В идеале вам бы провести слепое тестирование — убедится, что вы сами себя не накрутили, или у вас не реакция на современных художников такая…

      Что можете об этих сказать:

      Заголовок спойлера
      imageimageimageimage


      1. zenhower
        01.09.2022 21:06
        +2

        Я не могу как-то внятно объяснить. Первая и последняя картины выглядят более "логичными", чем вторая и третья. Чем дольше я изучаю сгенерированные, тем больше укачивает или другая напасть. И да, я уже проверил и знаю где какая.


        1. inkelyad
          01.09.2022 23:52

          Первая и последняя - напоминают картину, нарисованную вручную красками, а не digital арт/рендер с мельчайшими деталями, как вторая и третья.

          Вот именно все что "холст, масло(крупными мазками), (почти)природный пейзаж" - похоже сети уже стопроцентно перекрывают рисование человеком.


          1. JustPeople
            02.09.2022 08:16
            +3

            Вот такой результат получился у меня после недолгих игр с midjourney. Я тогда ещё не знал про то что вес задавать можно в тексте, тип освещения, фамилию художника и т.д. и т.п. и поэтому составил описание в стиле "светлячки на фоне звёздного неба в таинственном лесу. Атмосфера волшебства" и после нескольких раундов добавления деталей (там не указываешь доп параметры уже, midjourney просто прорабатывает детализацию) получился вот такой результат.


            1. engine9
              02.09.2022 12:25

              Вау, похоже, эти инструменты отлично генерируют природные пейзажи, текстуры растений и т.п.


              1. thatsme
                02.09.2022 15:51
                +1

                А вот эти вам как?


                1. engine9
                  02.09.2022 18:51

                  Очень здорово, как визуализация сна. Нейросети как робо-рисовальщики со временем станут помощниками художников.


                  1. JustPeople
                    03.09.2022 05:37

                    Художников вряд ли. Все же художник (как мне кажется) это про выражение чего то накопившегося внутри у человека. А вот для иллюстраторов отличное подспорье будет, да и почему бы и нет, в этом и смысл научно технического прогресса, как пелось в песне из фильма «приключения электроника» — «вкалывают роботы, счастлив человек» :)


                    1. inkelyad
                      03.09.2022 10:21

                      Художников вряд ли. Все же художник (как мне кажется) это про выражение чего то накопившегося внутри у человека.

                      Зависит от точки зрения. Попросить нейросетку нарисовать тысячу "Грустный камень лежит в грустной речке под грустным небом" а потом выбрать то, что наиболее соответствует тому что у тебя в душе накопилось -- это может проще, чем руками пытаться выразить. А уж настроение эти сетки гораздо лучше ловят, чем конкретные детали.

                      У них проблемы как раз когда есть четкое ТЗ "хочу пиджак с красными обязательно симиугольными пуговицами из стразов"


              1. Refridgerator
                02.09.2022 17:22

                Эти инструменты отлично генерируют природные пейзажи, потому что в интернете их миллионы, включая с вырезанным задним фоном (например), и сами фоны (например). Неудивительно, что их легко комбинировать в автоматическом режиме. Поиск по картинке в гугл также может выдать интересные результаты в виде вероятных первоисточников (для волшебной картинки со светлячками тоже нашлась парочка). С городами будущего недостатка тоже нет, потому эти темы и так популярны в статьях подобного рода.


                1. JustPeople
                  03.09.2022 05:33

                  К слову именно что то подобное я и хотел увидеть когда составлял описание про волшебный лес :) но не знание как это правильно делать и интерес куда заведет меня midjourney в итоге привели к выше показанному результату :)


      1. GospodinKolhoznik
        02.09.2022 00:48
        +2

        ИИ давно умеет рисовать абстрактное неведомое нечто, ещё лет 10 назад умел. Но как тогда, так и сейчас палится на реализме.


      1. dim111
        02.09.2022 13:50
        +1

        1) Точно работа художника. Только имя забыл.
        2-3 выглядит как какие то какой то скриншот или недорогая иллюстрация. Не знаю нейронка или нет. Но просто не интересно.
        4) Похоже на Картину маслом. Сомневаюсь что это нейросеть.


        1. ivegner
          02.09.2022 17:43

          Для меня простым маркером на 1 и 4 является наличие отражения. Уверен, что нейросети вообще не знают, что такое зеркало.

          2-3 обладают композицией и сюжетом, много деталей, выдержанных в едином стиле. Но от 3 остаётся какое-то неуютное ощущение несоразмерности одних деталей к другим, которое я не знаю, на что списать: то ли автор так хотел, то ли по-другому не умел, то ли автор машина. Но явно не DALL-E, лол.


    1. GospodinKolhoznik
      02.09.2022 00:43
      +1

      Недеюсь с ними будет как с 3д фильмами. Лет 15 назад была истерия, все киностудии бросились снимать блокбастеры только в 3д, но потом внезапно оказалось, что людей то подташнивает. И про 3д забыли, как про страшный сон.

      Щас все эффективные менеджеры бросятся экономить на художниках и заменять их работы ии-бредом. Очень надеюсь, что рыночек порешает и товары с тошнотворными картинками не будут пользоваться спросом у покупателей, а значит и от них быстро откажутся.


      1. Alexey2005
        02.09.2022 00:55
        +3

        Увы, в отличие от фильмов, такие ИИ-творения обладают сразу двумя преимуществами: они дешёвые и штампуются очень быстро. Поэтому тут скорее будет как с первыми 3D-играми.
        Когда вместо 2D-игр с прорисованной графикой начал внедряться рендер, игроки тихо ненавидели этот кошмар. Потому что 3D того времени «радовало» торчащими полигонами, шестиугольными колёсами, мыльными текстурами и примитивным освещением по Фонгу, от которого хотелось блевать. Это убожество и рядом не стояло с 2D-пейзажами и спрайтами, прорисованными вручную. И в таком положении 3D-игры находились примерно лет десять.
        Но увы игрокам — рендерить оказалось намного дешевле, нежели прорисовывать каждую анимацию вручную в десятке ракурсов. И эта разница в цене привела к тому, что новые игры начали выходить почти исключительно в 3D, и мнение игроков никого уже не волновало.


        1. Refridgerator
          02.09.2022 06:23

          В отличие от фильмов и игр, никто сейчас не проводит время рассматривая картинки часами. Это сейчас на хайпе кажется, что в генерации картинок по текстовому запросу есть какая-то особенная ценность. Нету этой ценности, особенно когда отношение адекватного результата к адскому трешу представляет 1 к 1000. Поразвлекается народ и надоест. Упомянутые в статье Грег Рутковски, Гюстав Доре, Deviantart как бы наглядно указывают на то, из каких именно источников получаются наиболее вменяемые картинки — а значит, и вырождение такого подхода неизбежно.


        1. engine9
          02.09.2022 12:34

          Вы знаете, не все так воспринимали 3Д, я очень любил и 2Д и ранее 3Д. И до сих пор под эффектом утёнка у меня умиление при виде "всратой" графики уровня PS1.

          Мной это воспринимается как разные стили в живописи. И гиперреализм хорош и импрессионизм. Вот последний у меня ассоциируется с ранним 3Д.

          И да, хочу поделиться опытом из рисования. Важна не столько детализация как светотеневой рисунок (мозг считывает крупный объём), палитра (информация о погоде и освещении) и правильные хорошо отражающие форму контуры объектов.


    1. Sin2x
      02.09.2022 01:16
      +1

      Своеобразная Uncanny Valley.


    1. Darth_Biomech
      02.09.2022 13:46
      +1

      Хм, возникает ли у вас чуство тошноты от этих картинок?

      Hidden text


  1. VRV
    01.09.2022 17:20
    +3

    Вчера весь день игрался на своей ноутбучной 3070, картинки максимум 768*512, на большее памяти не хватает и результат, конечно, поражает, но и тут есть пределы - она умеет использовать только готовые образы из интернета, создать что-то совершенно новое, увы пока нельзя, но зато менять стили произведений с одного на другое за милое душу. Превратить обычный автобус в стиль киберпанка - получаются просто отличные изображения..


    1. FreeNickname
      01.09.2022 19:05
      +1

      Простите, я может пропустил случайно, но не подскажете, пожалуйста, где скачать эту модель и скрипты? Я слышал только об ограниченном доступе к Dall-E и доступе ко второй модели (забыл название) через Discord.


      1. Alexey2005
        01.09.2022 19:20
        +3

        Например здесь. Но вообще форков уже множество понаделали.


      1. diogen4212
        01.09.2022 19:28
        +2

        Ставил по этому гайду. Размер изображения задаю как 512*512 или 768*512 (это максимум, что может моя видеокарта с 12 Гб видеопамяти), для запуска использую батник автора видео SD HighRam RunStableDiffusion.bat.


      1. VRV
        01.09.2022 22:37
        +2

        Официальный код на гитхабе: https://github.com/hlky/stable-diffusion

        https://github.com/hlky/stable-diffusion/wiki/Installation

        Я знатно так потарахтел с другими описаниями прежде чем официальное нашел


    1. technomancer
      01.09.2022 19:17

      Присоединяюсь к вопросу коллеги.


    1. crea7or
      02.09.2022 00:58
      +2

      Наш мозг-то так же работает, берёт готовое, обрабатывает и вот результат. Попросите ребёнка 5-7-10 лет нарисовать что-нибудь и увидите насколько заполнены его нейросети образами.


      1. engine9
        02.09.2022 12:37

        Образ нужно еще научиться из мозга извлекать. Человечество многие тысячелетия не знало, например законов перспективы. Просто не было методик рисования. Примеры исскуства эпохи "до перспективы" это картинки из мемов про страдающее средневековье. Ну или египетские барельефы, где все плоские как в 2Д платформерах.


        1. ivegner
          02.09.2022 17:54

          С другой стороны, а зачем нужна она, перспектива? Она всего лишь художественное средство, а средства подбираются под задачи. Например, если вы делаете колоссальную статую божества в храм, то ваша художественная задача — чтобы голова божества, теряющаяся где-то под потолком, не выглядела нелепо маленькой по сравнению с туловищем, и тогда ваше средство — "обращение перспективы": вы делаете голову больше. При этом на стенах храма вам нужно вместить некоторую назидательную историю из загробного мира, чтобы она читалась, и тогда вы располагаете фигуры рядом друг с другом, и для перспективы в вашей композиции нет места.


          1. engine9
            02.09.2022 18:15
            +1

            Правильная перспектива это средство передачи объёма и пространства. С открытием законов перспективы живопись вышла на уровень ближе к фотореализму.

            Египтяне, к слову, очень прокачаны были в скульптуре и превосходно передавали в ней пропорции и тонкие нюансы кривизны тела человека и животных.

            Но вот в плоское три-де не могли.


    1. IvanPetrof
      02.09.2022 04:35
      +1

      Интересно. Для использования уже обученной сети обязательна видеокарта с кучей памяти? Или возможно отрендерить на оперативке и ЦП?
      На сколько я понимаю видюшка в основном нужна при обучении (когда перемалываются тонны чисел). Пройтись один раз по уже обученной сети наверно и без видюшки можно. Сильно дольше?


      1. Alexey2005
        02.09.2022 10:21

        Возможно (и на Github уже есть форки, которые это позволяют). Но, во-первых, RAM требуется в разы больше, чем VRAM (потому что CPU толком не работает с float16, и требуется сперва отконвертить всё во float32). И во-вторых это раз в десять медленнее. Генерация одного изображения на CPU занимает несколько минут.


        1. Paul_Arakelyan
          02.09.2022 13:55

          " на CPU занимает несколько минут" - для поразвлекаться - одинаково, пока ты что-то вредное пойдёшь пожевать - оно отрендерится. Всё равно не реал-тайм. Интересно было бы быстро нарендерить кучу, условно, 320х200, а потом выбрать "адекватные" и в разрешении побольше отрендерить.

          "В разы больше RAM" - это вдвое? или во сколько? Всё же "условно доступный" десктопный максимум - 24ГБ VRAM RTX 3090 (48ГБ - уже не десктопные игрушки), в то же время уже в десктоп можно и 128, и 256ГБ поставить за часть цены 3090 (зачем - вопрос другой :) ).


  1. diogen4212
    01.09.2022 17:54
    +3

    Следующий шаг — лёгкая возможность дообучения моделей на десятке картинок любимого автора (или на своих собственных каракулях, почему бы и нет) и десктопной GPU.
    Хотя я возлагаю больше надежды на генерацию текста и каноничных продолжениях любимых произведений (например, продолжение Гарри Поттера или события 7-ой книги в Хогвартсе без Золотого Трио)


    1. VRV
      01.09.2022 22:43
      +2

      Дообучение реально нужно, потому что превратить любого известного публичного человека, например, в капитана америка, с сохранением узнаваемости, легко, а обычное фото обычного человека - не получается, черты лица стираются, очень бы хотелось ее дообучать как-то, но видно это трудно делается) + это нужно для ведения одного персонажа для иллюстрации журналов и книг. Тут очень много версий новых образуется, вплоть до создания мультипликации на основе заготовленных персонажей.


      1. i__egor
        02.09.2022 13:50
        +2

        или подделка видео улик


  1. sswwssww
    01.09.2022 20:58

    Смог запустить ее(оптимизированный форк репы) на карточке с gtx 1660 super 6 gm vram. В среднем, генерит 1 картинку 512x512 за 30 секунд.


  1. v1000
    02.09.2022 00:03
    +1

    Красиво, но все равно чувствуется неестественность. При том что детализация хорошая - но она и подводит, потому что видны неточности. Потому что сейча это, скорее, красивый калейдоскоп, в котором детали более-менее собираются в общую картину.


    1. Paul_Arakelyan
      02.09.2022 14:02
      +2

      Если рассматривать это как "помощь криворукому художнику-фотошоперу" - вполне вариант. Поправить готовое и убрать артефакты - проще, чем нарисовать с 0. По опыту - дорисовать "штампом" в фотошопе платья с рисунком, шею с пиджаком - не сложно, а вот нарисовать - нужно уметь рисовать.


  1. GospodinKolhoznik
    02.09.2022 00:18
    +4

    Ожидаю в ближайшее время наплыва текстовых квестов и визуальных новелл с такими вот говно-иллюстрациями.


    1. Alexey2005
      02.09.2022 00:22
      +22

      С текстами, написанными GPT-3, и программным кодом, написанным Copilot.


      1. RollingBrock
        02.09.2022 01:59
        +3

        O kurwa.


      1. combo_breaker
        02.09.2022 12:48
        +2

        Не знаю насчёт программного кода, но генерация текстового квеста плюс генерация иллюстраций со Stable Diffusion (по придуманному игроком запросу) уже есть - это AI Dungeon.


      1. Ag-None
        02.09.2022 13:49
        +1

        Визуальная новелла с полностью нейронным контентом, кстати, уже есть. Endless visual novel. Она очень сломана, и на полном серьезе это воспринимать сложно, но как эксперимент... Начало положено.


  1. combo_breaker
    02.09.2022 07:21
    +7

    Старый прикол "как нарисовать сову" внезапно стал реальностью.


  1. sim2q
    02.09.2022 09:09

    А что со звуком?
    Хотелось бы для начала простых пространственных эффектов добавить. Типа - источник улетел за сцену. Но главная проблема - real time. Мы тут уже думали - что в электронной музыке у нас всё повторяется и первые паттерны можно сначала только анализировать. Потом просчитать и начинать менять.
    ps извиняюсь, в теме очень отдалённо - на уровне Dolby Pro Logic II, делали аппаратное предыдущего поколения, но оно слишком простое и предсказуемое