Еще в прошлом году я в свое время подавался в лист ожидания для того чтобы опробовать нейросеть GPT3 для генерации текстов, и спустя достаточно длительное ожидание она попала ко мне в руки, и даже в рабочем проекте мы с ней поэкспериментировали.

И когда Open AI открыли возможность получить доступ к их новой нейросети DALL·E 2 я конечно же воспользовался возможностью и вот на прошлой неделе и она попала мне в руки.

Сразу предупреждаю - в статье я не буду погружаться в технические детали, а просто покажу результаты тестов, причем без выбора самых лучших вариантов, а только то что получил в первых результатах


Введение — а что это за DALL·E 2 такая?

Немного про саму нейросеть DALL·E 2 — она создана для генерации изображений на основе пользовательского описания.

https://openai.com/dall-e-2/ — на сайте проекта достаточно подробно и с примерами показывается что эта штука уже может, но я добавлю пару примеров в статью, чтобы у вас как у читателя сразу был некоторый контекст.

Астронавт отдыхающий в тропическом отеле в космосе в фотореалистичном стиле
Астронавт отдыхающий в тропическом отеле в космосе в фотореалистичном стиле
Тарелка супа которая является порталом в другое измерение как «digital art» («цифровое искусство»)
Тарелка супа которая является порталом в другое измерение как «digital art» («цифровое искусство»)
Астронавт верхом на лошади как карандашный рисунок
Астронавт верхом на лошади как карандашный рисунок

Также кроме создания изображений с нуля, данная нейросеть способна модифицировать изображения дорисовывая что-то на них, так и создавать варианты исходного изображения.

Пример создания вариантов из исходного изображения
Пример создания вариантов из исходного изображения
Пример модификации изображения — нейросеть попросили дорисовать диван
Пример модификации изображения — нейросеть попросили дорисовать диван

Итак, после того как все мы поняли что же эта штука умеет, настало время проверить это на практике.

Тесты нейросети

Этот вариант генерации вышел несколько абстрактным, но в целом неплохо

Unreal engine 5 space station background inspired with space games and films
Unreal engine 5 space station background inspired with space games and films

Viewst team (developers, designers, managers and so on) making coding and sales of they wysiwyg software what helps create animated banners in Leonardo da Vinci styles

Как видно получается неплохо, задумка похожа на стоковые фотографии о командах которые делают свои дизайнерско\разработческие и прочие дела, но вот качество лиц конечно подкачало на «фотореалистичных вариантах»

Теперь перейдем к другим стилям

Realistic oil painting of Doggy in medieval armor with viewst chameleon logo on shield fighting with dragon of low sales

(Реалистичная масляная живопись изображающую Догги в средневековой броне с Viewst логотипом хамелеоном на щите сражающейся с драконом низких цен)

А вот это уже весьма круто выглядит и более чем соответствует запросу — не считая отсутствия дракона низких цен :)

Photo of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance

(Фото косплееров с костюмами по играм, фильмам и аниме перед тем как они выйдут на сцену показать свою работу и выступление)

Опять мы видим проблему с лицами людей (и любовь по всей видимости к аниме у нейросети :) )

А теперь попробуем поменять стиль для такого запроса

Digital art of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance

И для картинки с девушкой с фиолетовыми волосами я решил посмотреть как сработает функция создания вариантов — и получилось более чем достойно

Pixel art of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance

И пиксель арт получается достаточно интересный

А теперь пришло время пейзажей. Как вариант я решил посмотреть что же может сделать нейросеть касательно моего родного города Рыбинска, и насколько это будет похоже на открыточные виды.

An impressionist watercolor painting of Rybinsk with view from water on bridge, museum and church at summer time

Этим результатом я был очень впечатлен, так как на многих фотографиях обычно как раз фигурирует собор, здание музея с красной крышей и мостом через волгу

И для примера фотография

Затем для того же запроса я попросил сделать еще вариантов, и вот что получилось

А затем я решил посмотреть на варианты пейзажей с осенью вместо лета и сменить стиль с акварели на масло

An impressionist oil painting painting of Rybinsk with view from water on bridge, museum and church at autumn time

Затем я решил попробовать режим работы с созданием вариантов по готовому изображению.

Я взял картинку медведя-пивовара из моего туристического пэт-проекта, и запросил нейросеть создать другие варианты эскиза. И получилось на удивление не плохо

Затем я опробовал вариант дорисовки\перерисовки изображения — взял картинку медведя, и запросил Bear in engineering helmet and blueprints in hands и разметив область головы и рук (вместо секиры)

Далее я решил посмотреть, что будет если разметить все изображение как возможное место для перерисовки с запросом Bear in watercolor type with Rybinsk museum background

Как видно, в таком случае сеть никак по большей части не отталкивается от предыдущего стиля изображения, а только от текстового описания.

И еще раз попробовал варианты, в этот раз вышло более коряво для медведя с секирой

Продолжим пробы с вариантами — тут я использовал свою фотографию с фестиваля в косплее на Иванушку из Морозко

Еще варианты косплейной фотографии, на этот раз с моим Айзеком из Dead Space 2

И еще немного перерисовки фотографии с запросом Phot if Russian summer forest (да, я опечатался)

А теперь продолжим с безумными запросами, часть из которых мне подсказали)

Wrestler in ball gown (рестлер в бальном платье)

Wrestler in ball gown from renesanse time in style of Yan van Eyk

DND dwarf monk character who likes cats and use as iron apples to fight for balance in a world (ДНД персонаж гном монах который любит котов и использует железные яблоки для того чтобы бороться за баланс в мире)

DND dwarf monk character who likes cats and use as iron apples to fight for balance in a world in unreal engine 5 style

И вот что будет если мы чуток поменяем запрос и попросим стиль Unreal Engine 5

Warhammer elf mage character riding a white Chinese dragon in unreal engine 5 style (Warhammer персонаж маг-эльф верхом на белом китайском драконе в стиле Unreal Engine 5)

Продолжим фэнтези тематику

Warhammer elf mage character riding a white Chinese dragon (Warhammer персонаж маг-эльф верхом на белом китайском драконе)

“Warhammer elf mage character riding a white Chinese dragon” by Yan van Eyk

Проба работы с вариантами логотипа

Medieval cockatiel tapestry

И еще один подсказанный запрос который вышел просто потрясающе

Продолжаем тему

Medieval cockatiel tapestry as wallpapers in modern house

И вариант с попугаями выше в виде обоев

Красивый лес в стиле Шишкина с гигантскими мухоморами и охотниками за шишками

А теперь проверим как нейронка «понимает» другие языки, в частности русский — как мы видим в целом про лес и шишки и мухоморы понято, но уже не так хорошо.

Photorealistic 3d render of donut with blue glaze and small yellow hearts and pearls on glaze in purple room

Продолжим с вариантами генерации изображений. Данный запрос я составил, чтобы посмотреть получится ли что-то похожее на работу в 3d от @Troxx_cosplay

И вот что получилось

Oil painting of landscape with road going through field surrounded by forest. Road goes to giant grey concrete building, with few small windows on top. All landscape is foggy

Продолжаем тему пейзажей

Еще немного работы с вариантами картинки

Young woman not tall with short blue hair and many earrings with feathers and stones in light jacket, brown shirts, high socks and army shoes in watercolor style

Кокадутиэль

И тут отлично выглядящие пейзажи

“Front end and backend developers arguing to create ultimate developer”by Leonardo da Vinci

Front end and backend developers arguing to create ultimate developer in medival style

Disco elisium detective fighting his destiny in medival style


Что же можно сказать по итогу (после того как я потратил все доступные бесплатные лимиты).

Это уже очень интересный инструмент для тех же идей с референсами для художников, иногда (особенно с пейзажами) чуть ли не готовый инструмент чтобы сделать картину и повесить ее на стену, штука чтобы сделать себе иллюстрации для твоей статьи (как это к примеру часто сейчас делает Denis Sexy IT) а иногда генератор очень странных лиц и ситуаций.

Так что нас ждет очень интересное будущее :)

Комментарии (41)


  1. karakka
    31.07.2022 21:29
    +3

    По-прежнему ИИ сложно воспроизводить реалистичные человеческие лица.


    1. m0rg0t Автор
      31.07.2022 21:30
      +1

      Но должен заметить что специализированные сетки натасканные на генерацию лиц (та же сетка от nvidia) вполне себе делает реалистичные лица


      1. m0rg0t Автор
        31.07.2022 21:36


      1. m0rg0t Автор
        31.07.2022 21:39
        +5


    1. mithdradates
      01.08.2022 00:21
      +2

      StyleGAN v2 и v3 не дают реалистичных лиц? У первого - да, были проблемы с зубами, фоном, и артефактами. Впрочем, даже у него неподготовленный юзер скорее всего не заметил бы подвоха без пристального вглядывания на протяжении нескольких (может. и десятков) минут.


    1. Inkor
      01.08.2022 10:03
      +1

      Ну кстати. Если прямо запрашивать портрет, то результат обычно заметно лучше.


      1. m0rg0t Автор
        01.08.2022 10:05

        Надо будет проверить)

        Ну и те же рисованые стилизованные портреты вполне интересно выглядят


  1. OrsoRosso2142
    31.07.2022 21:36
    +10

    Меня тут друг спрашивает, когда ИИ натаскают на контент 18+?


    1. m0rg0t Автор
      31.07.2022 21:39
      +7

      Гляди, у того же open ai сейчас стоят фильтры - они ограничивают всякую 18+ движуху.

      И вполне вероятно что без этих фильтров эта же dalle сможет генерировать этот самый 18+ контент без проблем (благо в сети есть на чем учится, от рисунков до фотографий).


    1. m0rg0t Автор
      31.07.2022 21:40
      +7

      Плюс вспоминая историю с дипфейками - этот путь уже начат, и думаю мы ещё увидим расцвет нейро-порно по заказу пользователя


    1. timurmalyshev73
      31.07.2022 22:28
      +5

      ИИ уже натаскали на дипфейки. Кто ищет, тот всегда найдёт


    1. ReadOnlySadUser
      01.08.2022 01:52

      Да было уже вроде. this nude does not exist вроде называлось, хотя я не помню уже.


  1. arch1baald
    31.07.2022 21:41
    +1

    Сколько в среднем времени генерируются 4 картинки по запросу?


    1. m0rg0t Автор
      31.07.2022 21:43
      +2

      В рамках секунд, к сожалению не фиксировал время точно, но очень быстро (секунды грубо говоря).

      Как придёт зарплата смогу закинуть денег им на увеличение лимитов и посмотреть точнее если не забуду)


  1. GubkaBob
    31.07.2022 22:46
    +3

    Как видим, в unreal engine 5 style нету места котикам :(

    /sarcasm :)


  1. dvoeglazyi
    31.07.2022 23:20
    +1

    Читаю вторую статью про эту нейросеть, ощущение, будто это прям некий прорыв - такими темпами навыки художников могут обесценится, впрочем не впервой, пережили изобретение фотоаппаратов, переживут и это.

    "Для полного какао" осталось загрузить мегатонны сгенерированной ерунды в NTF (шутка).


    1. m0rg0t Автор
      31.07.2022 23:23
      +4

      Скорее это будет дополнительный инструмент упрощающий работу, и не обязательно "заменяющий" их.
      Этакий copilot для художников и дизайнеров (картинки с драконами генерировал по запросу и их будут использовать как референс для уже рисования сцены с нуля), или быстрое средство сделать хоть какие-то иллюстрации для своих материалов


  1. R7R
    01.08.2022 01:28

    но вот качество лиц конечно подкачало на «фотореалистичных вариантах»


    Что это все мне напоминает? Ах да, вот это.


    1. iShrimp
      01.08.2022 19:01

      Да ну, не надо сравнивать ИИ с душевнобольными. Он честно старается нарисовать то, что от него хотят. И что самое интересное, на первый взгляд получается очень натурально... если не вглядываться в детали, где зрителя ждёт жуткий майндфак.


      1. R7R
        02.08.2022 02:16

        Да ну, не надо сравнивать ИИ с душевнобольными.


        Но похоже же? :)
        В творениях ИИ явно присутствует компиляция заданных образов, полностью лишенная смысловой нагрузки, что сродни безумию.


  1. ReadOnlySadUser
    01.08.2022 01:55

    А есть большая версия для этой картинки? Я бы из неё какой-нибудь мем про ИТ придумал)


    1. m0rg0t Автор
      01.08.2022 01:59

      Есть, но уже утром закину


    1. m0rg0t Автор
      01.08.2022 10:37
      +1

      Держите


  1. phenik
    01.08.2022 05:51

    Нужно показать это творчество психиатру. Он определит какими расстройствами страдает это. Примеры.

    Если скрестить эту модель с LaMDA, то возможно она будет считать себя не просто сознающей личностью, но и конкретно Ван-Гогом)


    1. iShrimp
      01.08.2022 19:12
      +1

      Вряд ли нейросеть способна имитировать расстройства личности, но она каким-то образом хорошо "научилась" эксплуатировать феномен первого взгляда. Вначале (с первого взгляда) картинка кажется реалистичной, но дьявол кроется в деталях.


      1. phenik
        02.08.2022 04:23
        +2

        Вряд ли нейросеть способна имитировать расстройства личности
        ИНС существующих архитектур имитируют понимание смысла. И так же как у человека структурные и функциональные нарушения на разных уровнях и локациях мозга вызывают различные патологические отклонения, ИНС также демонстрируют подобное поведение из-за того, что их структура далека от прототипа. Не стоит думать, что простое увеличение объема этих сетей, их параметров, и объема обучающей выборки устранит эти недостатки полностью. Это не позволят сделать энергетические ограничения. Необходима дальнейшая работа над архитектурой с целью приближения к биологическим прототипам. См. подробный комент с пониманием смысла чисел языковыми моделями, почему они напоминают в этом отношении напоминают дискалькуликов, и как это, вероятно, возможно устранить. Либо принимать это творчество как есть, и быть готовым к разным проблемам и сюрпризам) и считать это условной нормой исходя из христианской добродетели.


  1. vinodimus
    01.08.2022 07:12
    +1

    А какой результат будет, если повторить один и тот же запрос? сгенерирует новую картинку или ту же?


    1. m0rg0t Автор
      01.08.2022 07:13

      Сгенерирует новые - на примере с пейзажем показывал как раз


  1. combo_breaker
    01.08.2022 07:14

    Можно попробовать покадрово сгенерировать видео, сформировав запрос так, как обычно подписывают несколько кадров в одной картинке ("frame-by-frame"? Как называется линейка кадров в видеоредакторах?). Можно также вставить свой или сгенерированный первый кадр в левую верхнюю часть картинки, а остальное пространство пометить для модификации.

    Или комикс. Взять страницу и оставить только часть кадров, а остальное пометить для изменения. В запросе описать и то, что осталось на странице, и то, что мы хотим получить в развитии. Можно делать самодельные спин-оффы :)


  1. Deosis
    01.08.2022 07:20

    и любовь по всей видимости к аниме у нейросети

    Вы попросили косплееров из фильмов, игр и аниме. Сеть выдает то, что просили, а не то о чем подумали.


    1. m0rg0t Автор
      01.08.2022 07:36

      Да, но часть с «фильмов и игр» в этом запросе визуально была меньше отражена, я и не спорю с тем что аниме в запросе есть


  1. Sergiv
    01.08.2022 10:19

    Чувствуется, скоро видео (короткие) можно будет генерить на основе текстового запроса. Написал сценарий - мульт или фильм готов )


    1. m0rg0t Автор
      01.08.2022 10:21
      +1

      Уже показывали наработки по генерации именно видео - там проблема как понимаю в консистентности картинки (кадр новый основывался на предыдущем)


      1. Sergiv
        01.08.2022 10:28

        Ссылкой не поделитесь? Интересно очень посмотреть.


        1. m0rg0t Автор
          03.08.2022 10:43

          Пока не нашел, помню в телеграм канале была ссылка на статьи и тестовые результаты, но пока поиском не нашел пост к сожалению


          1. Sergiv
            03.08.2022 10:47

            Если найдёте - напишите, пожалуйста


  1. eggstream
    01.08.2022 13:07

    Для тех, кто называет дварфов гномами, в аду есть специальный котёл, под который дварфы и гномы регулярно подкидывают дрова.
    В ДнД и большинстве других ролевых систем это две абсолютно разные расы.


    1. m0rg0t Автор
      01.08.2022 13:18

      Согласен, но будем это считать адаптацией для не столь искушенного читателя


      1. eggstream
        02.08.2022 10:53
        +1

        Видимо, как какой-то недальновидный переводчик в древние времена Белоснежку переводил, так и закрепилось.


  1. bushuy
    01.08.2022 14:08

    С таким творчеством можно подумать что ИИ совсем живых существ не любит, особенно людей...


    1. m0rg0t Автор
      01.08.2022 15:27

      Нужно получше формулировать запрос :)