Про Kandinsky 2.1

jin wilder willy wonka smirk_Kandinsky 2.1
jin wilder willy wonka smirk_Kandinsky 2.1

Начало положено.

Как человек связавший свою жизнь с искусством, и шесть лет проработав за холстом реальным, прежде чем перейти к виртуальному, мне было интересно понять как искусственный интеллект может соперничать с креативным мышлением человека.

Информационный шум и паника вокруг этой темы еще больше нагнетали и даже будоражили сознание. Ожидалось, что картинка меня поразит и заставит почувствовать себя никчемным созданием в своей нише.  

Очень мне хотелось, чтобы меня удивили, чтобы я с таким же таинственным взглядом как Вилли Вонка перестала быть скептиком и уверовала.

Но уже после первой пробы мне стало ясно, что волшебной палочки не существует и «не так страшен чёрт, как его малюют». Простые запросы выдавали банальные сюжеты или, в буквальном смысле, визуальный мусор.

Я стала усложнять запросы и давать более точное описание, но с каждым разом становилось словно хуже. Хоть и более конкретные и неважно на русском или английском, они не давали желаемого результата и на каких-то моментах сюжеты заносило откровенно не туда. Все это омрачилось артефактами в виде вторых челюстей или ног растущих из ног персонажа. Смазанные планы, отсутствие базовой анатомии, стеклянные расфокусированные взгляды и каменные лица, статичные позы и очень скудная композиция. 

В моих экспериментах было сложно выдавить хоть какие-то эмоции у персонажа. И после многочисленных попыток я ментально устала играть в эту рулетку. 

Безумный Джин Уайлдер Вилли Вонка хихикает надо мной_Kandinsky 2.1
Безумный Джин Уайлдер Вилли Вонка хихикает надо мной_Kandinsky 2.1
Джин Уайлдер Вилли Вонка сильно удивлен_Kandinsky 2.1
Джин Уайлдер Вилли Вонка сильно удивлен_Kandinsky 2.1

Откровенно говоря, стало легче, появилось понимание, что это инструмент, а не соперник и придется затратить немало усилий для формирования запроса, а далее постобработки, чтобы воплотить свою задумку.

Довольно интересные проскальзывали интерпретации совершенно сумбурных, абсурдных заданий. Но это уже сугубо для развлечения. Там же можно поиграть со стилем, которых порядка двадцати.

на рассвете русалка ест пирог с черникой_Kandinsky 2.1
на рассвете русалка ест пирог с черникой_Kandinsky 2.1
дельфин и русалка курят кальян_Kandinsky 2.1
дельфин и русалка курят кальян_Kandinsky 2.1
беспилотник кормит свой выводок_Kandinsky 2.1
беспилотник кормит свой выводок_Kandinsky 2.1
неандертальцы чинят компьютер apple_Kandinsky 2.1
неандертальцы чинят компьютер apple_Kandinsky 2.1
рождение новой звезды в мышлении спящего человека_Kandinsky 2.1
рождение новой звезды в мышлении спящего человека_Kandinsky 2.1

Интеллект неплох в профессии, когда нужно скинуть на кого-то рутину. Когда ты уже достаточно ценишь себя и время, чтобы рисовать логотип для строй-треста №5.

Мне понравилось, как подошли к вопросу в одном похоронном агентстве: ChatGPT пишет эпитафии за родственников, а Midjourney меняет фоны и генерирует одежду в стиле професси усопшего - для строителя роба, киянка и каска, для повара колпак и передник. Для потоковых работ - это отличное решение, чтобы экономить свой личный ресурс.

На данном этапе в творческой сфере, мы обслуживаем нейросеть, а не она нас. Конечно, все может измениться, и предполагаю, что в будущем нам придется бороться за авторское право не между собой, а с машиной. Но пока ей нужно “поднабраться опыта”. 

Также проскользнула интересная информация в моей новостной ленте запрещеннограма по этой теме - предлагалось купить курс по грамотному построению задач для ИИ, а почему бы и нет? Строить диалог и повышать эффективность, чтобы завтра ты все еще продолжал держать все под контролем.

Джин Уайлдер Вилли Вонка ухмыляется_Kandinsky 2.1
Джин Уайлдер Вилли Вонка ухмыляется_Kandinsky 2.1

* Все это является моим субъективным мнением на основании тестирования Kandinsky 2.1

Комментарии (21)


  1. vassabi
    15.04.2023 08:27
    +1

    "запрещеннограма" (от запрещеннобука) - это пять!

    (мда ... вот так и живем в техноутопии, чтобы бы об этом думали предки если бы узнали ...)


  1. sshikov
    15.04.2023 08:27
    +5

    Слушайте, но вот эти картинки — они же ужасны. Причем ужасны как эстетически (ну ок, это субъективное мое мнение, можно не согласиться), так и технически (в частности, даже я, не будучи профессионалом, вижу явные ляпы в анатомии (три ряда зубов же), вижу очень странную перспективу, точнее ее отсутствие, и многие другие странности). Ну какой нафиг конкурент? На сегодня — точно нет.


    1. engine9
      15.04.2023 08:27
      +7

      Моё мнение, что эта нейросеть Кандинский неудачная или старая, stablediffusion выдаёт намного более эстетичные результаты, почти без склонности к нагромождению деталей.

      У черепа даже внутри глазниц изображены щели, выходы зрительных нервов. Светотеневой рисунок — не придерёшься.
      У черепа даже внутри глазниц изображены щели, выходы зрительных нервов. Светотеневой рисунок — не придерёшься.
      Зебра почти идеальна с точки зрения анатомии.
      Зебра почти идеальна с точки зрения анатомии.
      Современная архитектура
      Современная архитектура
      Попросил каменный шар в пустыне и получил его.
      Попросил каменный шар в пустыне и получил его.


      1. sshikov
        15.04.2023 08:27
        +1

        Ну, да, это получше (хотя и сильно попроще, скорее всего). Но все равно некоторые артефакты бросаются в глаза. Скажем, тени на шаре какие-то странные, как будто он изломан, шар вроде лежит на песке, но песок не проминается, ну и так еще по мелочи…


        В общем, я согласен с автором, что как инструмент это было бы интересно (в качестве платина к рисовалке, например), а как самостоятельный автор по описанию — пока что не сегодня.


        Меня в последнее время удивляет число тех, кто восхищается результатами ИИ в разработке софта, при том что все что я пробую — вообще не тянет на результат. То есть, скажем, попросил я вчера OpenAssistant написать код на скале, он мне выдал кое-что похожее на правду, но недостаточно общее — то есть, частную задачу оно почти решило (но неправильно). Попросил обобщить — и понеслось… такое, что ни в сказке сказать, ни пером описать. Ну вот допустим, что в моих вопросах навело его на мысль, что я просил код на питоне? Я даже слова такого не упоминал, почему в третьем или четвертом ответе код пошел питоновский? Или, зачем оно решило в мою задачу притащить Spark ML или MLlib, в то время как задача никакого обучения не предполагала?


        Это в литературной фантастике так можно, а с кодом так вольно обращаться нельзя.


        1. PuerteMuerte
          15.04.2023 08:27
          +2

          Ну, да, это получше (хотя и сильно попроще, скорее всего). Но все равно некоторые артефакты бросаются в глаза.

          Ну скажем так, это уже даже в таком виде заменяет огромный пласт ручной работы всякого рода художников-оформителей, рекламщиков, а также отбирает клиентуру у фотобанков.
          Кроме того, есть одна общая проблема у критики нейросетей: эту самую критику делают профессиональные художники/фотографы. Те самые ребята, которые и друг друга ранее готовы были съесть. Вот тут композиция неверная, вот тут цвета плохо подобраны, вот тут непонятно, что автор хотел сказать, и вообще горизонт завален.
          Но потребителем сего продукта будут-то не художники/фотографы, а казуальный пользователь. А у него чувство прекрасного намного менее обострённое, и соответственно, и контент от нейросети намного чаще будет для его задач вполне пригодным. А с учётом стоимости и быстроты получения — вообще идеальным.


          1. sshikov
            15.04.2023 08:27
            +3

            заменяет огромный пласт ручной работы

            Ну да, при некоторых условиях (если анатомически или с перспективой налажать — то переделывать/доделывать за ним будет сложнее, чем с нуля сделать. А цель все-таки сократить сроки и расходы.


          1. engine9
            15.04.2023 08:27
            +1

            Еще есть эффект прайминга, например ребята-трехмерщики иногда прикалываются и присылают реальные фотографии под видом рендера и тридешники находят множество проблем с "нереалистичными текстурами", "с плохой сеткой" и т.п. :)


            1. sshikov
              15.04.2023 08:27
              +1

              Ну, тут кажется все же другой случай. Вот возьмите зебру выше, и сравните ее скажем с… не, не с фоткой. Сравните с рисунком зебры Марти из мультиков про Мадагаскар. Разница между профессиональным художником и произведением нейросети в этом случае таки видна прекрасно. И видна на мой взгляд не только лишь профессионалу.


              1. PuerteMuerte
                15.04.2023 08:27
                +1

                Разница между профессиональным художником и произведением нейросети в этом случае таки видна прекрасно.

                Неа, не видна. Вообще не видна. Можно сидеть и придираться к расположению полосок на зебре, но с другой стороны, может, то авторский стиль такой. В любом случае, если бы мне для иллюстрации чего-либо нужна была бы рисованная зебра, этот рисунок рассматривался бы абсолютно равноценно с "человеческими".


              1. Alexey2005
                15.04.2023 08:27

                Точно видна?


                1. SergeyMax
                  15.04.2023 08:27

                  Да, точно.


                1. sshikov
                  15.04.2023 08:27

                  Я говорил про конкретный рисунок. Там видно. Про все рисунки зебр, сделанные всеми нейросетями конечно утверждать не буду. Ваши два примера — вполне приличные "мультяшные" зебры.


  1. ElVibrio
    15.04.2023 08:27
    +7

    Да ладно. Чукча ИИ не художник, ИИ пейсатель. Создавали по сути аналог не мозга, а его куска - зон распознавания и воспроизведения речи Вернике и Брока. Учили на электронных двойниках живых образов. Получили поведенческие девиации.

    Подумаешь, глаза с бельмами и расфокусировкой осей зрения, четвероногие голуби и дополнительные челюсти чужого.

    Это ещё нет достоверных сообщений, с какими галлюцинаторными искажениями имеют сталкиваться психиатры инженеры и разработчики этих систем.


  1. higin
    15.04.2023 08:27
    +2

    После длительного просмотра таких изображений возникает пред-депрессивное состояние. Быстрее бы уже наигрались с этим, или сети усовершенствовались до приемлемого уровня. Честное слово, суют "нейронку" во все щели и дыры- надоело...


    1. SergeyMax
      15.04.2023 08:27

      После длительного просмотра таких изображений возникает пред-депрессивное состояние

      Вы художник? Разве четырехногие голуби - это не прикольно? Обычные надоели уже.


  1. avdosev
    15.04.2023 08:27
    +5

    Мне кажется, что статья не имеет особой актуальности, да тема нейронок у всех на слуху, но проблема в том, что нейросеть сбера (как и шедеврум яндекса) не на гребне прогресса, потестируйте StableDiffusion или MidJourney. Вот над ними создатели постарались. И мнение о них интересно.


  1. Fedorkov
    15.04.2023 08:27
    +2

    Дело не в искусственной нейронке, а в естественной.

    Smirking willy wonka, high-quality photo, soft light, highly detailed, Nikon D850 DSLR, 8k Negative prompt: bad anatomy, bad proportions, blurry, cloned face, cropped, deformed, dehydrated, disfigured, duplicate, error, extra arms, extra fingers, extra legs, extra limbs, fused fingers, gross proportions, jpeg artifacts, long neck, low quality, lowres, malformed limbs, missing arms, missing legs, morbid, mutated hands, mutation, mutilated, out of frame, poorly drawn face, poorly drawn hands, signature, text, too many fingers, ugly, username, watermark, worst quality Steps: 150, Sampler: Euler a, CFG scale: 7, Seed: 2966410217, Face restoration: CodeFormer, Size: 512x512, Model hash: 9aba26abdf, Model: deliberate_v2, Denoising strength: 0.7, Hires upscale: 2, Hires upscaler: Latent
    Smirking willy wonka, high-quality photo, soft light, highly detailed, Nikon D850 DSLR, 8k
    Negative prompt: bad anatomy, bad proportions, blurry, cloned face, cropped, deformed, dehydrated, disfigured, duplicate, error, extra arms, extra fingers, extra legs, extra limbs, fused fingers, gross proportions, jpeg artifacts, long neck, low quality, lowres, malformed limbs, missing arms, missing legs, morbid, mutated hands, mutation, mutilated, out of frame, poorly drawn face, poorly drawn hands, signature, text, too many fingers, ugly, username, watermark, worst quality
    Steps: 150, Sampler: Euler a, CFG scale: 7, Seed: 2966410217, Face restoration: CodeFormer, Size: 512x512, Model hash: 9aba26abdf, Model: deliberate_v2, Denoising strength: 0.7, Hires upscale: 2, Hires upscaler: Latent

    Ни разу не художник, сделал за полчаса изучения промптов из интернета.


    1. Fedorkov
      15.04.2023 08:27

      Потратил ещё полчаса, понастраивал модель Realistic Vision, которая даёт более реалистичные портреты.

      Hidden text
      smirking Willy Wonka, 35 y.o., high detailed skin, skin pores, 8k uhd, dslr, soft lighting, high quality, Fujifilm XT3Negative prompt: (semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime:1.4), text, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, wearing glassesSteps: 150, Sampler: Euler a, CFG scale: 2, Seed: 2144662986, Face restoration: CodeFormer, Size: 512x512, Model hash: e6415c4892, Model: realisticVisionV20_v20, Denoising strength: 0.7, Hires upscale: 2, Hires upscaler: Latent
      smirking Willy Wonka, 35 y.o., high detailed skin, skin pores, 8k uhd, dslr, soft lighting, high quality, Fujifilm XT3
      Negative prompt: (semi-realistic, cgi, 3d, render, sketch, cartoon, drawing, anime:1.4), text, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, wearing glasses
      Steps: 150, Sampler: Euler a, CFG scale: 2, Seed: 2144662986, Face restoration: CodeFormer, Size: 512x512, Model hash: e6415c4892, Model: realisticVisionV20_v20, Denoising strength: 0.7, Hires upscale: 2, Hires upscaler: Latent


  1. axe_chita
    15.04.2023 08:27

    По большому счету, нейросети сейчас это калейдоскоп, который случайным образом собирает кусочки следуя фильтру отбора. Но у этого нейрокалейдоскопа нет ни памяти, ни положительной связи, и он не накапливает опыт — "это получилось хорошо, это правильно, эти связи надо закрепить".
    К примеру по запросу "прекрасная нагая девушка с распущенными светлыми волосами, купается в реке, вдали за ней в реке стоит рыжий конь, гиперреализм", пришлось выполнить не один десяток генераций (среди результатов было несколько вариаций на купание Ксюши в естественной среде), прежде чем получилось что то удобоваримое.


    Нюнейроконтент ахеад





  1. hostbest
    15.04.2023 08:27

    Адскую нечисть нарисовала эта Kandinsky 2.1. Нафига я это увидел вообще, брр?! Предупреждать надо!


    1. PuerteMuerte
      15.04.2023 08:27

      Можно подумать, нейросетка живого Кандинского выдавала более щадящий результат :)
      image