DALL·E 2 — мои первые эксперименты с возможностями нейросети / forpes.ru

Главная
DALL·E 2 — мои первые эксперименты с возможностями нейросети

DALL·E 2 — мои первые эксперименты с возможностями нейросети +11

31.07.2022 20:45

m0rg0t 41 12000 Источник

Еще в прошлом году я в свое время подавался в лист ожидания для того чтобы опробовать нейросеть GPT3 для генерации текстов, и спустя достаточно длительное ожидание она попала ко мне в руки, и даже в рабочем проекте мы с ней поэкспериментировали.

И когда Open AI открыли возможность получить доступ к их новой нейросети DALL·E 2 я конечно же воспользовался возможностью и вот на прошлой неделе и она попала мне в руки.

Сразу предупреждаю - в статье я не буду погружаться в технические детали, а просто покажу результаты тестов, причем без выбора самых лучших вариантов, а только то что получил в первых результатах

Введение — а что это за DALL·E 2 такая?

Немного про саму нейросеть DALL·E 2 — она создана для генерации изображений на основе пользовательского описания.

https://openai.com/dall-e-2/ — на сайте проекта достаточно подробно и с примерами показывается что эта штука уже может, но я добавлю пару примеров в статью, чтобы у вас как у читателя сразу был некоторый контекст.

Астронавт отдыхающий в тропическом отеле в космосе в фотореалистичном стиле

Тарелка супа которая является порталом в другое измерение как «digital art» («цифровое искусство»)

Астронавт верхом на лошади как карандашный рисунок

Также кроме создания изображений с нуля, данная нейросеть способна модифицировать изображения дорисовывая что-то на них, так и создавать варианты исходного изображения.

Пример создания вариантов из исходного изображения

Пример модификации изображения — нейросеть попросили дорисовать диван

Итак, после того как все мы поняли что же эта штука умеет, настало время проверить это на практике.

Тесты нейросети

Этот вариант генерации вышел несколько абстрактным, но в целом неплохо

Unreal engine 5 space station background inspired with space games and films

Viewst team (developers, designers, managers and so on) making coding and sales of they wysiwyg software what helps create animated banners in Leonardo da Vinci styles

Как видно получается неплохо, задумка похожа на стоковые фотографии о командах которые делают свои дизайнерско\разработческие и прочие дела, но вот качество лиц конечно подкачало на «фотореалистичных вариантах»

Теперь перейдем к другим стилям

Realistic oil painting of Doggy in medieval armor with viewst chameleon logo on shield fighting with dragon of low sales

(Реалистичная масляная живопись изображающую Догги в средневековой броне с Viewst логотипом хамелеоном на щите сражающейся с драконом низких цен)

А вот это уже весьма круто выглядит и более чем соответствует запросу — не считая отсутствия дракона низких цен :)

Photo of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance

(Фото косплееров с костюмами по играм, фильмам и аниме перед тем как они выйдут на сцену показать свою работу и выступление)

Опять мы видим проблему с лицами людей (и любовь по всей видимости к аниме у нейросети :) )

А теперь попробуем поменять стиль для такого запроса

Digital art of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance

И для картинки с девушкой с фиолетовыми волосами я решил посмотреть как сработает функция создания вариантов — и получилось более чем достойно

Pixel art of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance

И пиксель арт получается достаточно интересный

А теперь пришло время пейзажей. Как вариант я решил посмотреть что же может сделать нейросеть касательно моего родного города Рыбинска, и насколько это будет похоже на открыточные виды.

An impressionist watercolor painting of Rybinsk with view from water on bridge, museum and church at summer time

Этим результатом я был очень впечатлен, так как на многих фотографиях обычно как раз фигурирует собор, здание музея с красной крышей и мостом через волгу

И для примера фотография

Затем для того же запроса я попросил сделать еще вариантов, и вот что получилось

А затем я решил посмотреть на варианты пейзажей с осенью вместо лета и сменить стиль с акварели на масло

An impressionist oil painting painting of Rybinsk with view from water on bridge, museum and church at autumn time

Затем я решил попробовать режим работы с созданием вариантов по готовому изображению.

Я взял картинку медведя-пивовара из моего туристического пэт-проекта, и запросил нейросеть создать другие варианты эскиза. И получилось на удивление не плохо

Затем я опробовал вариант дорисовки\перерисовки изображения — взял картинку медведя, и запросил Bear in engineering helmet and blueprints in hands и разметив область головы и рук (вместо секиры)

Далее я решил посмотреть, что будет если разметить все изображение как возможное место для перерисовки с запросом Bear in watercolor type with Rybinsk museum background

Как видно, в таком случае сеть никак по большей части не отталкивается от предыдущего стиля изображения, а только от текстового описания.

И еще раз попробовал варианты, в этот раз вышло более коряво для медведя с секирой

Продолжим пробы с вариантами — тут я использовал свою фотографию с фестиваля в косплее на Иванушку из Морозко

Еще варианты косплейной фотографии, на этот раз с моим Айзеком из Dead Space 2

И еще немного перерисовки фотографии с запросом Phot if Russian summer forest (да, я опечатался)

А теперь продолжим с безумными запросами, часть из которых мне подсказали)

Wrestler in ball gown (рестлер в бальном платье)

Wrestler in ball gown from renesanse time in style of Yan van Eyk

DND dwarf monk character who likes cats and use as iron apples to fight for balance in a world (ДНД персонаж гном монах который любит котов и использует железные яблоки для того чтобы бороться за баланс в мире)

DND dwarf monk character who likes cats and use as iron apples to fight for balance in a world in unreal engine 5 style

И вот что будет если мы чуток поменяем запрос и попросим стиль Unreal Engine 5

Warhammer elf mage character riding a white Chinese dragon in unreal engine 5 style (Warhammer персонаж маг-эльф верхом на белом китайском драконе в стиле Unreal Engine 5)

Продолжим фэнтези тематику

Warhammer elf mage character riding a white Chinese dragon (Warhammer персонаж маг-эльф верхом на белом китайском драконе)

“Warhammer elf mage character riding a white Chinese dragon” by Yan van Eyk

Проба работы с вариантами логотипа

Medieval cockatiel tapestry

И еще один подсказанный запрос который вышел просто потрясающе

Продолжаем тему

Medieval cockatiel tapestry as wallpapers in modern house

И вариант с попугаями выше в виде обоев

Красивый лес в стиле Шишкина с гигантскими мухоморами и охотниками за шишками

А теперь проверим как нейронка «понимает» другие языки, в частности русский — как мы видим в целом про лес и шишки и мухоморы понято, но уже не так хорошо.

Photorealistic 3d render of donut with blue glaze and small yellow hearts and pearls on glaze in purple room

Продолжим с вариантами генерации изображений. Данный запрос я составил, чтобы посмотреть получится ли что-то похожее на работу в 3d от @Troxx_cosplay

И вот что получилось

Oil painting of landscape with road going through field surrounded by forest. Road goes to giant grey concrete building, with few small windows on top. All landscape is foggy

Продолжаем тему пейзажей

Еще немного работы с вариантами картинки

Young woman not tall with short blue hair and many earrings with feathers and stones in light jacket, brown shirts, high socks and army shoes in watercolor style

Кокадутиэль

И тут отлично выглядящие пейзажи

“Front end and backend developers arguing to create ultimate developer”by Leonardo da Vinci

Front end and backend developers arguing to create ultimate developer in medival style

Disco elisium detective fighting his destiny in medival style

Что же можно сказать по итогу (после того как я потратил все доступные бесплатные лимиты).

Это уже очень интересный инструмент для тех же идей с референсами для художников, иногда (особенно с пейзажами) чуть ли не готовый инструмент чтобы сделать картину и повесить ее на стену, штука чтобы сделать себе иллюстрации для твоей статьи (как это к примеру часто сейчас делает Denis Sexy IT) а иногда генератор очень странных лиц и ситуаций.

Так что нас ждет очень интересное будущее :)

Комментарии (41)

karakka
31.07.2022 21:29
#24584344
+3
По-прежнему ИИ сложно воспроизводить реалистичные человеческие лица.
1. m0rg0t Автор
  31.07.2022 21:30
  #24584352
  +1
  Но должен заметить что специализированные сетки натасканные на генерацию лиц (та же сетка от nvidia) вполне себе делает реалистичные лица
  1. m0rg0t Автор
    31.07.2022 21:36
    #24584374
  1. m0rg0t Автор
    31.07.2022 21:39
    #24584384
    +5
1. mithdradates
  01.08.2022 00:21
  #24584782
  +2
  StyleGAN v2 и v3 не дают реалистичных лиц? У первого - да, были проблемы с зубами, фоном, и артефактами. Впрочем, даже у него неподготовленный юзер скорее всего не заметил бы подвоха без пристального вглядывания на протяжении нескольких (может. и десятков) минут.
1. Inkor
  01.08.2022 10:03
  #24585862
  +1
  Ну кстати. Если прямо запрашивать портрет, то результат обычно заметно лучше.
  1. m0rg0t Автор
    01.08.2022 10:05
    #24585872
    Надо будет проверить)
    
    Ну и те же рисованые стилизованные портреты вполне интересно выглядят

OrsoRosso2142
31.07.2022 21:36
#24584370
+10
Меня тут друг спрашивает, когда ИИ натаскают на контент 18+?
1. m0rg0t Автор
  31.07.2022 21:39
  #24584378
  +7
  Гляди, у того же open ai сейчас стоят фильтры - они ограничивают всякую 18+ движуху.
  
  И вполне вероятно что без этих фильтров эта же dalle сможет генерировать этот самый 18+ контент без проблем (благо в сети есть на чем учится, от рисунков до фотографий).
1. m0rg0t Автор
  31.07.2022 21:40
  #24584390
  +7
  Плюс вспоминая историю с дипфейками - этот путь уже начат, и думаю мы ещё увидим расцвет нейро-порно по заказу пользователя
1. timurmalyshev73
  31.07.2022 22:28
  #24584490
  +5
  ИИ уже натаскали на дипфейки. Кто ищет, тот всегда найдёт
1. ReadOnlySadUser
  01.08.2022 01:52
  #24584990
  Да было уже вроде. this nude does not exist вроде называлось, хотя я не помню уже.

arch1baald
31.07.2022 21:41
#24584396
+1
Сколько в среднем времени генерируются 4 картинки по запросу?
1. m0rg0t Автор
  31.07.2022 21:43
  #24584400
  +2
  В рамках секунд, к сожалению не фиксировал время точно, но очень быстро (секунды грубо говоря).
  
  Как придёт зарплата смогу закинуть денег им на увеличение лимитов и посмотреть точнее если не забуду)

GubkaBob
31.07.2022 22:46
#24584548
+3
Как видим, в unreal engine 5 style нету места котикам :(

/sarcasm :)

dvoeglazyi
31.07.2022 23:20
#24584626
+1
Читаю вторую статью про эту нейросеть, ощущение, будто это прям некий прорыв - такими темпами навыки художников могут обесценится, впрочем не впервой, пережили изобретение фотоаппаратов, переживут и это.

"Для полного какао" осталось загрузить мегатонны сгенерированной ерунды в NTF (шутка).
1. m0rg0t Автор
  31.07.2022 23:23
  #24584630
  +4
  Скорее это будет дополнительный инструмент упрощающий работу, и не обязательно "заменяющий" их.
  Этакий copilot для художников и дизайнеров (картинки с драконами генерировал по запросу и их будут использовать как референс для уже рисования сцены с нуля), или быстрое средство сделать хоть какие-то иллюстрации для своих материалов

R7R
01.08.2022 01:28
#24584948
но вот качество лиц конечно подкачало на «фотореалистичных вариантах»

Что это все мне напоминает? Ах да, вот это.
1. iShrimp
  01.08.2022 19:01
  #24588176
  Да ну, не надо сравнивать ИИ с душевнобольными. Он честно старается нарисовать то, что от него хотят. И что самое интересное, на первый взгляд получается очень натурально... если не вглядываться в детали, где зрителя ждёт жуткий майндфак.
  1. R7R
    02.08.2022 02:16
    #24589236
    Да ну, не надо сравнивать ИИ с душевнобольными.
    
    Но похоже же? :)
    В творениях ИИ явно присутствует компиляция заданных образов, полностью лишенная смысловой нагрузки, что сродни безумию.

ReadOnlySadUser
01.08.2022 01:55
#24584996
А есть большая версия для этой картинки? Я бы из неё какой-нибудь мем про ИТ придумал)
1. m0rg0t Автор
  01.08.2022 01:59
  #24585004
  Есть, но уже утром закину
1. m0rg0t Автор
  01.08.2022 10:37
  #24585988
  +1
  Держите

phenik
01.08.2022 05:51
#24585154
Нужно показать это творчество психиатру. Он определит какими расстройствами страдает это. Примеры.

Если скрестить эту модель с LaMDA, то возможно она будет считать себя не просто сознающей личностью, но и конкретно Ван-Гогом)
1. iShrimp
  01.08.2022 19:12
  #24588206
  +1
  Вряд ли нейросеть способна имитировать расстройства личности, но она каким-то образом хорошо "научилась" эксплуатировать феномен первого взгляда. Вначале (с первого взгляда) картинка кажется реалистичной, но дьявол кроется в деталях.
  1. phenik
    02.08.2022 04:23
    #24589292
    +2
    Вряд ли нейросеть способна имитировать расстройства личности
    ИНС существующих архитектур имитируют понимание смысла. И так же как у человека структурные и функциональные нарушения на разных уровнях и локациях мозга вызывают различные патологические отклонения, ИНС также демонстрируют подобное поведение из-за того, что их структура далека от прототипа. Не стоит думать, что простое увеличение объема этих сетей, их параметров, и объема обучающей выборки устранит эти недостатки полностью. Это не позволят сделать энергетические ограничения. Необходима дальнейшая работа над архитектурой с целью приближения к биологическим прототипам. См. подробный комент с пониманием смысла чисел языковыми моделями, почему они напоминают в этом отношении напоминают дискалькуликов, и как это, вероятно, возможно устранить. Либо принимать это творчество как есть, и быть готовым к разным проблемам и сюрпризам) и считать это условной нормой исходя из христианской добродетели.

vinodimus
01.08.2022 07:12
#24585252
+1
А какой результат будет, если повторить один и тот же запрос? сгенерирует новую картинку или ту же?
1. m0rg0t Автор
  01.08.2022 07:13
  #24585258
  Сгенерирует новые - на примере с пейзажем показывал как раз

combo_breaker
01.08.2022 07:14
#24585260
Можно попробовать покадрово сгенерировать видео, сформировав запрос так, как обычно подписывают несколько кадров в одной картинке ("frame-by-frame"? Как называется линейка кадров в видеоредакторах?). Можно также вставить свой или сгенерированный первый кадр в левую верхнюю часть картинки, а остальное пространство пометить для модификации.

Или комикс. Взять страницу и оставить только часть кадров, а остальное пометить для изменения. В запросе описать и то, что осталось на странице, и то, что мы хотим получить в развитии. Можно делать самодельные спин-оффы :)

Deosis
01.08.2022 07:20
#24585268
и любовь по всей видимости к аниме у нейросети

Вы попросили косплееров из фильмов, игр и аниме. Сеть выдает то, что просили, а не то о чем подумали.
1. m0rg0t Автор
  01.08.2022 07:36
  #24585294
  Да, но часть с «фильмов и игр» в этом запросе визуально была меньше отражена, я и не спорю с тем что аниме в запросе есть

Sergiv
01.08.2022 10:19
#24585898
Чувствуется, скоро видео (короткие) можно будет генерить на основе текстового запроса. Написал сценарий - мульт или фильм готов )
1. m0rg0t Автор
  01.08.2022 10:21
  #24585902
  +1
  Уже показывали наработки по генерации именно видео - там проблема как понимаю в консистентности картинки (кадр новый основывался на предыдущем)
  1. Sergiv
    01.08.2022 10:28
    #24585946
    Ссылкой не поделитесь? Интересно очень посмотреть.
    
    m0rg0t Автор
    03.08.2022 10:43
    #24593134
    Пока не нашел, помню в телеграм канале была ссылка на статьи и тестовые результаты, но пока поиском не нашел пост к сожалению
    
    Sergiv
    03.08.2022 10:47
    #24593154
    Если найдёте - напишите, пожалуйста

eggstream
01.08.2022 13:07
#24586802
Для тех, кто называет дварфов гномами, в аду есть специальный котёл, под который дварфы и гномы регулярно подкидывают дрова.
В ДнД и большинстве других ролевых систем это две абсолютно разные расы.
1. m0rg0t Автор
  01.08.2022 13:18
  #24586860
  Согласен, но будем это считать адаптацией для не столь искушенного читателя
  1. eggstream
    02.08.2022 10:53
    #24589992
    +1
    Видимо, как какой-то недальновидный переводчик в древние времена Белоснежку переводил, так и закрепилось.

bushuy
01.08.2022 14:08
#24587078
С таким творчеством можно подумать что ИИ совсем живых существ не любит, особенно людей...
1. m0rg0t Автор
  01.08.2022 15:27
  #24587406
  Нужно получше формулировать запрос :)

DALL·E 2 — мои первые эксперименты с возможностями нейросети +11

Введение — а что это за DALL·E 2 такая?

Тесты нейросети

Комментарии (41)

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор

m0rg0t Автор