Еще в прошлом году я в свое время подавался в лист ожидания для того чтобы опробовать нейросеть GPT3 для генерации текстов, и спустя достаточно длительное ожидание она попала ко мне в руки, и даже в рабочем проекте мы с ней поэкспериментировали.
И когда Open AI открыли возможность получить доступ к их новой нейросети DALL·E 2 я конечно же воспользовался возможностью и вот на прошлой неделе и она попала мне в руки.
Сразу предупреждаю - в статье я не буду погружаться в технические детали, а просто покажу результаты тестов, причем без выбора самых лучших вариантов, а только то что получил в первых результатах
Введение — а что это за DALL·E 2 такая?
Немного про саму нейросеть DALL·E 2 — она создана для генерации изображений на основе пользовательского описания.
https://openai.com/dall-e-2/ — на сайте проекта достаточно подробно и с примерами показывается что эта штука уже может, но я добавлю пару примеров в статью, чтобы у вас как у читателя сразу был некоторый контекст.
Также кроме создания изображений с нуля, данная нейросеть способна модифицировать изображения дорисовывая что-то на них, так и создавать варианты исходного изображения.
Итак, после того как все мы поняли что же эта штука умеет, настало время проверить это на практике.
Тесты нейросети
Этот вариант генерации вышел несколько абстрактным, но в целом неплохо
Viewst team (developers, designers, managers and so on) making coding and sales of they wysiwyg software what helps create animated banners in Leonardo da Vinci styles
Как видно получается неплохо, задумка похожа на стоковые фотографии о командах которые делают свои дизайнерско\разработческие и прочие дела, но вот качество лиц конечно подкачало на «фотореалистичных вариантах»
Теперь перейдем к другим стилям
Realistic oil painting of Doggy in medieval armor with viewst chameleon logo on shield fighting with dragon of low sales
(Реалистичная масляная живопись изображающую Догги в средневековой броне с Viewst логотипом хамелеоном на щите сражающейся с драконом низких цен)
А вот это уже весьма круто выглядит и более чем соответствует запросу — не считая отсутствия дракона низких цен :)
Photo of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance
(Фото косплееров с костюмами по играм, фильмам и аниме перед тем как они выйдут на сцену показать свою работу и выступление)
Опять мы видим проблему с лицами людей (и любовь по всей видимости к аниме у нейросети :) )
А теперь попробуем поменять стиль для такого запроса
Digital art of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance
И для картинки с девушкой с фиолетовыми волосами я решил посмотреть как сработает функция создания вариантов — и получилось более чем достойно
Pixel art of cosplayers with costumes from games, films, anime before they go on stage to show whey work and performance
И пиксель арт получается достаточно интересный
А теперь пришло время пейзажей. Как вариант я решил посмотреть что же может сделать нейросеть касательно моего родного города Рыбинска, и насколько это будет похоже на открыточные виды.
An impressionist watercolor painting of Rybinsk with view from water on bridge, museum and church at summer time
Этим результатом я был очень впечатлен, так как на многих фотографиях обычно как раз фигурирует собор, здание музея с красной крышей и мостом через волгу
И для примера фотография
Затем для того же запроса я попросил сделать еще вариантов, и вот что получилось
А затем я решил посмотреть на варианты пейзажей с осенью вместо лета и сменить стиль с акварели на масло
An impressionist oil painting painting of Rybinsk with view from water on bridge, museum and church at autumn time
Затем я решил попробовать режим работы с созданием вариантов по готовому изображению.
Я взял картинку медведя-пивовара из моего туристического пэт-проекта, и запросил нейросеть создать другие варианты эскиза. И получилось на удивление не плохо
Затем я опробовал вариант дорисовки\перерисовки изображения — взял картинку медведя, и запросил Bear in engineering helmet and blueprints in hands и разметив область головы и рук (вместо секиры)
Далее я решил посмотреть, что будет если разметить все изображение как возможное место для перерисовки с запросом Bear in watercolor type with Rybinsk museum background
Как видно, в таком случае сеть никак по большей части не отталкивается от предыдущего стиля изображения, а только от текстового описания.
И еще раз попробовал варианты, в этот раз вышло более коряво для медведя с секирой
Продолжим пробы с вариантами — тут я использовал свою фотографию с фестиваля в косплее на Иванушку из Морозко
Еще варианты косплейной фотографии, на этот раз с моим Айзеком из Dead Space 2
И еще немного перерисовки фотографии с запросом Phot if Russian summer forest (да, я опечатался)
А теперь продолжим с безумными запросами, часть из которых мне подсказали)
Wrestler in ball gown (рестлер в бальном платье)
Wrestler in ball gown from renesanse time in style of Yan van Eyk
DND dwarf monk character who likes cats and use as iron apples to fight for balance in a world (ДНД персонаж гном монах который любит котов и использует железные яблоки для того чтобы бороться за баланс в мире)
DND dwarf monk character who likes cats and use as iron apples to fight for balance in a world in unreal engine 5 style
И вот что будет если мы чуток поменяем запрос и попросим стиль Unreal Engine 5
Warhammer elf mage character riding a white Chinese dragon in unreal engine 5 style (Warhammer персонаж маг-эльф верхом на белом китайском драконе в стиле Unreal Engine 5)
Продолжим фэнтези тематику
Warhammer elf mage character riding a white Chinese dragon (Warhammer персонаж маг-эльф верхом на белом китайском драконе)
“Warhammer elf mage character riding a white Chinese dragon” by Yan van Eyk
Проба работы с вариантами логотипа
Medieval cockatiel tapestry
И еще один подсказанный запрос который вышел просто потрясающе
Продолжаем тему
Medieval cockatiel tapestry as wallpapers in modern house
И вариант с попугаями выше в виде обоев
Красивый лес в стиле Шишкина с гигантскими мухоморами и охотниками за шишками
А теперь проверим как нейронка «понимает» другие языки, в частности русский — как мы видим в целом про лес и шишки и мухоморы понято, но уже не так хорошо.
Photorealistic 3d render of donut with blue glaze and small yellow hearts and pearls on glaze in purple room
Продолжим с вариантами генерации изображений. Данный запрос я составил, чтобы посмотреть получится ли что-то похожее на работу в 3d от @Troxx_cosplay
И вот что получилось
Oil painting of landscape with road going through field surrounded by forest. Road goes to giant grey concrete building, with few small windows on top. All landscape is foggy
Продолжаем тему пейзажей
Еще немного работы с вариантами картинки
Young woman not tall with short blue hair and many earrings with feathers and stones in light jacket, brown shirts, high socks and army shoes in watercolor style
Кокадутиэль
И тут отлично выглядящие пейзажи
“Front end and backend developers arguing to create ultimate developer”by Leonardo da Vinci
Front end and backend developers arguing to create ultimate developer in medival style
Disco elisium detective fighting his destiny in medival style
Что же можно сказать по итогу (после того как я потратил все доступные бесплатные лимиты).
Это уже очень интересный инструмент для тех же идей с референсами для художников, иногда (особенно с пейзажами) чуть ли не готовый инструмент чтобы сделать картину и повесить ее на стену, штука чтобы сделать себе иллюстрации для твоей статьи (как это к примеру часто сейчас делает Denis Sexy IT) а иногда генератор очень странных лиц и ситуаций.
Так что нас ждет очень интересное будущее :)
Комментарии (41)
OrsoRosso2142
31.07.2022 21:36+10Меня тут друг спрашивает, когда ИИ натаскают на контент 18+?
m0rg0t Автор
31.07.2022 21:39+7Гляди, у того же open ai сейчас стоят фильтры - они ограничивают всякую 18+ движуху.
И вполне вероятно что без этих фильтров эта же dalle сможет генерировать этот самый 18+ контент без проблем (благо в сети есть на чем учится, от рисунков до фотографий).
m0rg0t Автор
31.07.2022 21:40+7Плюс вспоминая историю с дипфейками - этот путь уже начат, и думаю мы ещё увидим расцвет нейро-порно по заказу пользователя
ReadOnlySadUser
01.08.2022 01:52Да было уже вроде. this nude does not exist вроде называлось, хотя я не помню уже.
arch1baald
31.07.2022 21:41+1Сколько в среднем времени генерируются 4 картинки по запросу?
m0rg0t Автор
31.07.2022 21:43+2В рамках секунд, к сожалению не фиксировал время точно, но очень быстро (секунды грубо говоря).
Как придёт зарплата смогу закинуть денег им на увеличение лимитов и посмотреть точнее если не забуду)
dvoeglazyi
31.07.2022 23:20+1Читаю вторую статью про эту нейросеть, ощущение, будто это прям некий прорыв - такими темпами навыки художников могут обесценится, впрочем не впервой, пережили изобретение фотоаппаратов, переживут и это.
"Для полного какао" осталось загрузить мегатонны сгенерированной ерунды в NTF (шутка).
m0rg0t Автор
31.07.2022 23:23+4Скорее это будет дополнительный инструмент упрощающий работу, и не обязательно "заменяющий" их.
Этакий copilot для художников и дизайнеров (картинки с драконами генерировал по запросу и их будут использовать как референс для уже рисования сцены с нуля), или быстрое средство сделать хоть какие-то иллюстрации для своих материалов
R7R
01.08.2022 01:28но вот качество лиц конечно подкачало на «фотореалистичных вариантах»
Что это все мне напоминает? Ах да, вот это.iShrimp
01.08.2022 19:01Да ну, не надо сравнивать ИИ с душевнобольными. Он честно старается нарисовать то, что от него хотят. И что самое интересное, на первый взгляд получается очень натурально... если не вглядываться в детали, где зрителя ждёт жуткий майндфак.
R7R
02.08.2022 02:16Да ну, не надо сравнивать ИИ с душевнобольными.
Но похоже же? :)
В творениях ИИ явно присутствует компиляция заданных образов, полностью лишенная смысловой нагрузки, что сродни безумию.
ReadOnlySadUser
01.08.2022 01:55А есть большая версия для этой картинки? Я бы из неё какой-нибудь мем про ИТ придумал)
phenik
01.08.2022 05:51Нужно показать это творчество психиатру. Он определит какими расстройствами страдает это. Примеры.
Если скрестить эту модель с LaMDA, то возможно она будет считать себя не просто сознающей личностью, но и конкретно Ван-Гогом)iShrimp
01.08.2022 19:12+1Вряд ли нейросеть способна имитировать расстройства личности, но она каким-то образом хорошо "научилась" эксплуатировать феномен первого взгляда. Вначале (с первого взгляда) картинка кажется реалистичной, но дьявол кроется в деталях.
phenik
02.08.2022 04:23+2Вряд ли нейросеть способна имитировать расстройства личности
ИНС существующих архитектур имитируют понимание смысла. И так же как у человека структурные и функциональные нарушения на разных уровнях и локациях мозга вызывают различные патологические отклонения, ИНС также демонстрируют подобное поведение из-за того, что их структура далека от прототипа. Не стоит думать, что простое увеличение объема этих сетей, их параметров, и объема обучающей выборки устранит эти недостатки полностью. Это не позволят сделать энергетические ограничения. Необходима дальнейшая работа над архитектурой с целью приближения к биологическим прототипам. См. подробный комент с пониманием смысла чисел языковыми моделями, почему они напоминают в этом отношении напоминают дискалькуликов, и как это, вероятно, возможно устранить. Либо принимать это творчество как есть, и быть готовым к разным проблемам и сюрпризам) и считать это условной нормой исходя из христианской добродетели.
combo_breaker
01.08.2022 07:14Можно попробовать покадрово сгенерировать видео, сформировав запрос так, как обычно подписывают несколько кадров в одной картинке ("frame-by-frame"? Как называется линейка кадров в видеоредакторах?). Можно также вставить свой или сгенерированный первый кадр в левую верхнюю часть картинки, а остальное пространство пометить для модификации.
Или комикс. Взять страницу и оставить только часть кадров, а остальное пометить для изменения. В запросе описать и то, что осталось на странице, и то, что мы хотим получить в развитии. Можно делать самодельные спин-оффы :)
Deosis
01.08.2022 07:20и любовь по всей видимости к аниме у нейросети
Вы попросили косплееров из фильмов, игр и аниме. Сеть выдает то, что просили, а не то о чем подумали.
m0rg0t Автор
01.08.2022 07:36Да, но часть с «фильмов и игр» в этом запросе визуально была меньше отражена, я и не спорю с тем что аниме в запросе есть
Sergiv
01.08.2022 10:19Чувствуется, скоро видео (короткие) можно будет генерить на основе текстового запроса. Написал сценарий - мульт или фильм готов )
m0rg0t Автор
01.08.2022 10:21+1Уже показывали наработки по генерации именно видео - там проблема как понимаю в консистентности картинки (кадр новый основывался на предыдущем)
eggstream
01.08.2022 13:07Для тех, кто называет дварфов гномами, в аду есть специальный котёл, под который дварфы и гномы регулярно подкидывают дрова.
В ДнД и большинстве других ролевых систем это две абсолютно разные расы.
karakka
По-прежнему ИИ сложно воспроизводить реалистичные человеческие лица.
m0rg0t Автор
Но должен заметить что специализированные сетки натасканные на генерацию лиц (та же сетка от nvidia) вполне себе делает реалистичные лица
m0rg0t Автор
m0rg0t Автор
mithdradates
StyleGAN v2 и v3 не дают реалистичных лиц? У первого - да, были проблемы с зубами, фоном, и артефактами. Впрочем, даже у него неподготовленный юзер скорее всего не заметил бы подвоха без пристального вглядывания на протяжении нескольких (может. и десятков) минут.
Inkor
Ну кстати. Если прямо запрашивать портрет, то результат обычно заметно лучше.
m0rg0t Автор
Надо будет проверить)
Ну и те же рисованые стилизованные портреты вполне интересно выглядят