Обратите внимание на обложку к статье. Одна часть нарисована дизайнером, вторая — сгенерирована нейросетью Midjourney.

Сейчас многие восхищаются качеством иллюстраций от нейронок, и мы решили провести эксперимент. Сможет ли нейросеть проиллюстрировать тексты на уровне дизайнеров? Может, мы сможем сэкономить их время?

Результаты теста и ответ на загадку обложки — под катом.

Нейросеть для художников


Поэкспериментировать с Midjourney может каждый, без ожидания доступа к сервису. Достаточно подключиться к discord-каналу проекта. Каждому пользователю доступны бесплатные 25 запросов.

Обратная политика у конкурентного проекта — DALL-E: перед использованием нужно отправить заявку и ждать фидбэка от разработчиков. Ожидание может длиться больше месяца.


Сравнение иллюстраций DALL-E 2 и Midjourney. Источник

Сложно сказать, какая нейросеть показывает лучшие результаты. Как и DALL-E, Midjourney умеет рисовать не только потрясающие, но и непонятные и даже пугающие изображения.

Как сформировать запрос для нейросети


При создании иллюстрации дизайнер думает о том, как лучше объединить разные элементы, которые прописаны автором в техническом задании.

Аналогичным образом работает Midjourney. Чтобы получить желаемый результат от нейронной сети, нужно корректно сформировать для нее запрос. Разработчики Midourney опубликовали советы, как правильно общаться с нейросетью. Выделим основные из них.

Пишите как для ребенка


Формулировки должны быть буквальными: без метафор, эвфемизмов, словесных каламбуров и прочего.

Неправильно: «Обезьяны занимаются бизнесом»
Правильно: «Обезьяны сидят в деловых костюмах»

Запросы лучше формировать на английском. Другие языки Midjourney понимает хуже.

Избегайте отрицаний


Представьте, что вам нужно выбрать одну дверь из тысячи — за ней будет сундук с золотом. Рядом стоит «помощник», который знает наверняка, где спрятаны богатства. Вы его спрашиваете, какую дверь нужно открыть, чтобы обогатиться. А помощник отвечает: «Точно не 178». Стала ли задача проще от его подсказки?

Если нужно, чтобы Midjourney нарисовала зонтик любого цвета, но не красного, — попробуйте использовать отрицание. Но разработчики утверждают, что языковые модели часто игнорируют отрицательные частицы, союзы и предлоги («не», «но», «кроме», «без»). Если нужен синий зонтик, напишите об этом прямо.

Забудьте про мелкие детали


Они могут перегрузить систему. Не нужно описывать количество морщин на морде обезьяны. Попробуйте описать ее черты одним словом.

Возможно, эти тексты тоже вас заинтересуют:

Подбираем скины в Counter-Strike: Global Offensive в цвет сумочки
Обзор на разработчика и преимущества заикания: как айтишники попробовали себя в стендапе
Как быстро реализовать поиск на корпоративном портале

Пример генерации изображения


Чтобы сгенерировать изображение, нужно подключиться к каналу Discord, перейти в комнату newbies, ввести команду /imagine и написать свой запрос. В течение 10-30 секунд будет готова подборка из изображений.


Процесс генерации изображения по запросу «dinosaur»

Когда загрузка достигнет 100%, под коллажем появятся кнопки «U1, U2, U3, U4» и «V1, V2, V3, V4». Кнопки из первого ряда нужны для апскейла — улучшения качества выбранных изображений. А кнопки из второго ряда — для генерации картинок, «похожих» на выбранное изображение из подборки.


Апскейлинг четвертого изображения


Вариации четвертого изображения

Тестирование Midjourney


Мы решили проверить, как к решению задач дизайнеров-иллюстраторов подойдет нейронная сеть. Похожий эксперимент провели ребята из SkillFactory: они проверили, может ли DALL-E помочь избавиться от дорогих стоковых иллюстраций.

Нам был важен не стиль рисовки, а композиция, которую может придумать Midjourney. Для этого выбрали три статьи из нашего блога, которые рисовали дизайнеры, и сформулировали запросы для обложек. Посмотрим, что получилось.

Кроличья нора



Недавно выпустили статью про долгий поиск и дебаг ошибки в мониторинге объектного хранилища. На обложке метафорично изображена кроличья нора с уходящими вглубь строчками кода, алертами и разными пиктограммами. Разработчик конкретно закопался в абстракциях, и дизайнер это изобразил.

Мы протестировали несколько вариантов запросов.

Первый запрос

Rabbit hole with Python program code («кроличья нора с Python-кодом»)

Cначала мы попробовали описать для нейросети общую концепцию.


Midjourney удалось повторить перспективу норы и даже нарисовать кролика. Но больше ничего общего с оригинальной обложкой нет.

Также нейросеть забавно интерпретировала упоминание языка программирования Python. На иллюстрациях встречаются текстуры, напоминающие чешую, и даже змеиные яйца.

Второй запрос

Python code in the rabbit hole and rabbit

Добавили отдельно кролика. Но нейросеть пошла дальше и нарисовала жуткого «лунтика», который вылупился из змеиного яйца.


Третий запрос

Program code in the rabbit hole and rabbit

Чтобы Midjourney не генерировала больше змееподобных кроликов, решили вычеркнуть упоминание Python. Написали проще: «программный код».


Нейросеть сгенерировала старые ЭЛТ-мониторы (первая и третья картинки). И если на второй картинке изображено что-то абстрактное, то на четвертой — чисто клон кролика из «Алисы в стране чудес».

Но откуда на первом изображении яйцо? Может, есть предположения? Делитесь идеями в комментариях.

Коробка с котиками


Следующий этап тестирования — генерация обложки для статьи про машинное обучение на GPU в Managed Kubernetes.


Идея дизайнера: из коробки, символизирующей контейнер Kubernetes, вылетают картинки с котиками, которые сгенерированы в нейросети на GPU.

Первый запрос

Kubernetes container, photos with cats, machine learning, graphic processing unit

Сначала решили посмотреть, что придумает Midjourney, если просто перечислить ключевые элементы через запятую.


Что и следовало ожидать: нейросеть не знает, что такое Kubernetes и тем более не слышала про контейнеры в IT. Итог — картинка с контейнеровозом, контейнерный терминал, какие-то полки и фотография Мурзика.

Второй запрос

Box of pictures with cats

Когда поняли, что Midjourney не сумеет придумать композицию, решили составить простой запрос: «коробка с изображениями котов». На этот раз проблем не было, если не обращать внимание на странных котов.


Забавно, что во время работы над статьей автор предложил добавить кошачьим артефакты — лишние ноги, странные хвосты и так далее. Дизайнер усомнилась в идее, решив, что современные нейронные сети так не ошибаются. Оказалось, это не так: Midjourney вот нарисовала котов без глаз.

Облако на тарелке


Казалось, ничего лучше нейросеть уже не покажет. К тому же, нужно было сгенерировать иллюстрацию по сложному концепту — разделение мощности виртуального процессора.


Обложка статьи из блога

Дизайнеры подошли к вопросу творчески — нарисовали нарезанное облако на тарелке. Но что придумает нейросеть?

Запрос

Virtual CPU, power sharing, cloud operations, shared line

Расписывать всю идею натюрморта было бессмысленно. Запрос получился бы расплывчатым и слишком длинным. Поэтому «скормили» нейросети обычную последовательность из ключевых элементов.


Результат нас удивил. Палитра и зернистость некоторых изображений очень напомнили картинки, которые рисуют дизайнеры Selectel.

Правда осмысленная композиция есть только на первой иллюстрации. Кажется, что облако лежит на квадратной тарелке, которую мы даже не упоминали в запросе.

Результат

Нам стало интересно, что будет, если мы сгенерируем дополнительные варианты первой картинки. Для этого нажали на кнопку V1.



Особенно точно идея с нарезанным облаком передана на первой иллюстрации. После апскейлинга получили иллюстрацию с еще большим градусом точности.


Результат так нас впечатлил, что мы решили поиграть с вами в интерактив в заглавной картинке. Вот и ответ — левая часть сгенерирована Midjourney, а правую дорисовал дизайнер.


Нейросеть — конкурент? Мнение ведущего дизайнера


Нейронная сеть способна помочь в поиске концепций — подсказать вариант, который может направить мысль дизайнера в нетривиальное русло.

Но иллюстрации все равно нужно создавать дизайнерам. Ведь в работу человека вложено больше, чем в рандомный машинный рисунок. Мы продумываем целые сюжеты и метафоры, которые могут подкрепить блог компании смыслом и красотой. Пока только дизайнеры могут привлекательно отразить айдентику бренда,
— Алина Экизашвили, руководитель отдела дизайна Selectel.

Заменят ли нейросети дизайнеров — пока сказать сложно. Можно научить Midjourney и DALL-E делать иллюстрации в стилистике компании. Но если брендбук будет меняться, нейросети придется переобучать. Для этого нужен датасет из примеров, которые нужно кому-то отрисовать. Появится ли профессия на стыке дизайна и DataScience — открытый вопрос.

Но сейчас, как и в обозримом будущем, кажется, фрилансер Midjourney в Selectel не понадобится. Но если сервис нужен вам, а бесплатный лимит превышен, пишите в комментариях запрос — поможем.

Комментарии (25)


  1. Samurai007
    24.08.2022 13:21

    "Зато DALL-E полностью бесплатны" Dall e 2 не бесплатный, после ограниченных попыток надо пополнить кредиты.


    1. Doctor_IT Автор
      24.08.2022 13:25

      Здравствуйте! Спасибо за уточнение. Исправили!


  1. anka007
    24.08.2022 13:41
    +3

    Нейросеть вполне способна заменить фотобанк для рисованых иллюстраций. Но поверх результата нужна работа человека.


  1. dizatorr
    24.08.2022 14:17
    +7

    Нейросети подкидывают неплохие идеи. Сгенерированные изображения можно использовать как референсы.


  1. vassabi
    24.08.2022 14:19
    +2

    я для себя понял, что мне нейронка помогает по тексту сгенерировать быстро вариантов, потом показать дизайнеру (или самому себе) и сказать "вот такое же, но без странных артефактов"

    например из Midjourney

    увы, пока что глаза и уши - это самое больное у нейронок

    но зато ширина рандома вариантов и детализация пикселей - просто невообразимые

    Тестировал еще нейронку Stable Diffusion - она уже умеет из коробки "дополнять рисунок" по маске - отличная вещь. Так глядишь и до анимации дойти можно будет


    1. bee4
      24.08.2022 16:27

      На самом деле сетки генерируют глаза ничуть не хуже всех остальных достаточно сложных деталей: может даже лучше, учитывая гигантское количество лиц в тренировочном датасете.

      Проблема лишь в том, что наши биологические нейросети заточены на распознавание глаз (и лиц вообще) эволюционно: и обучаются в этом направлении всю жизнь (e.g. человек лучше различает людей тех рас, в обществе которых он вырос)

      Нас трудно обмануть неидеальными искусственными лицами, но легко - искусственным чем угодно другим.


    1. thatsme
      24.08.2022 16:32
      +1

      По маске как? Изображение как источник или изображение как цель?


      1. unwrecker
        24.08.2022 17:43
        +1

        Изображение-источник (набросок с мазками цветов) в изображение-цель (полноценная картина). На Joyreactor была статья, но, думаю, давать такую ссылку на Хабре негуманно :)


        1. DocJester
          25.08.2022 07:43

          Можете ссылку в личку прислать? Спасибо заранее


    1. IvanTes1
      25.08.2022 09:04

      Кстати, в Midjourney 3 уже интегрировали модель Stable Diffusion) По идее, должен получиться микс из миджорневской артистичности и стэйблдифьюженской точности композиции/деталей. Говорят, Midjourney 3 теперь заметно лучше справляется с лицами и руками. Правда пока доступна только бета, чтоб попробовать надо в конце запроса приписывать --beta или что-то такое (сорь, сам не пробовал пока, руки до Midjourney не дошли)


      1. logran
        25.08.2022 09:10

        Отключили на доработку бету пока что, но была шикарна. Лучше чем чистая SD — была аккуратность SD и полное соотсветствие запрашиваемому стилю от MJ (их новый апскейлер вообще идеально в стили может)


  1. thatsme
    24.08.2022 16:29
    +4

    Формулировки должны быть буквальными: без метафор, эвфемизмов, словесных каламбуров и прочего.

    Ну вот ещё, буду я сейчас перед ИИ пресмыкаться. /с
    А вообще он вполне способен грибные фантазии выполнять. Вот пример:

    Кind elephant streaming around sweet Kakapo cyberpunk by Salvador Dali
    Кind elephant streaming around sweet Kakapo cyberpunk by Salvador Dali

    Использованный для генерации текст: "Кind elephant streaming around sweet Kakapo cyberpunk by Salvador Dali". Проверял до какой степени игра слов может вообще быть воплощена в изображение.

    А вот на фразе "swarm of sweet puppies introducing themselves to hotdog". Он реально ломается. От swarm желтый цвет в наследство от ос или пчёл. А может быть и от горчицы. Но там щенки морфятся в хот-доги, и становятся не распознаваемы.

    Избегайте отрицаний

    Вот это как раз может работать особенно с параметром --no. Но есть вещи которые "взаиминеисключаемые", при попытках заставить ИИ создать портрет одновременно: "молодой", "лысой", "без ушей" женщины, придётся очень сильно напрягаться с весовыми коэффициентами. Т.к. лысая женщина для ИИ - старая. Без "ушей", - значит уши чем-то прикрыты, спрятаны (т.е. волосами чаще всего). Очень много мороки.

    Но добиться от этого ИИ можно очень многого, принимая те байасы которые у него есть и понимая, как их обходить и двигать генерацию в нужную сторону.

    Картинки

    Хотя с анатомией человека беды у ИИ из за недостаточно большого кол-ва параметров.

    Человек целиком умещается только как образ, а детализация возможна только на определённых "частях" человека. Ноги отдельно, корпус отдельно, Голова отдельно, руки отдельно, предпочтительно со спины, а если лицом к зрителю, то обрезка деталей и трансформация спины во фронт: лопатки в грудь, мышци живота и рёбра из хребта, разворот ступней в последюю очередь, а кисти рук уже не помещаются.

    Это не самое страшное с чего можно начать:

    Hidden text


  1. strongma_n
    24.08.2022 19:40
    -1

    Неправильно: «Обезьяны занимаются бизнесом»
    Правильно: «Обезьяны сидят в деловых костюмах»

    ИИ можно смело пускать в работу, когда при вводе двух строк выше у него на возврат будет тысяча и одна язва по теме ))


  1. vagon333
    24.08.2022 22:11

    При генерации картинок проблема подбора ключевых слов.
    Делаю открытый репозиторий ключевых слов на https://www.fartofart.com
    Собрал и обновляю картинки Midjourney, вытаскиваю ключевые слова. Предлагайте идеи.
    Тема интересна. Результаты автоматом на гитхаб или линк на API.


  1. Agafiy_Poluchebnik
    24.08.2022 23:55
    +7

    Но откуда на первом изображении яйцо? Может, есть предположения? Делитесь идеями в комментариях.

    Скорее всего из западноевропейской культуры - кролики тесно связаны с пасхальными яйцами


  1. phenik
    25.08.2022 07:23
    +2

    Нейросеть — конкурент? Мнение ведущего дизайнера

    Нейронная сеть способна помочь в поиске концепций — подсказать вариант, который может направить мысль дизайнера в нетривиальное русло.
    Как раз человеку фантазии не занимать в сравнении с такими системами. Просто их рисовать нужно уметь, и это долго, а тут готовые сразу) Если их у дизайнера нет, то смените дизайнера. Вероятно со временем к этой профессии требования изменятся, нужно будет уметь не рисовать, а придумывать запросы.

    Спасибо, интересный материал.


  1. Vitrehnut
    25.08.2022 09:04
    +1

    У нейронка нет души. Постоянно какой-то треш, ужасы


    1. phenik
      25.08.2022 13:36

      юмар такой


  1. Ggr3tings
    25.08.2022 11:40
    -1

    Я бы хотел обратить внимание на другой момент в статье:

    Представьте, что вам нужно выбрать одну дверь из тысячи — за ней будет сундук с золотом. Рядом стоит «помощник», который знает наверняка, где спрятаны богатства. Вы его спрашиваете, какую дверь нужно открыть, чтобы обогатиться. А помощник отвечает: «Точно не 178». Стала ли задача проще от его подсказки?

    Здесь, я думаю, стоило бы говорить как будто ведешь бинарный поиск. Стоило вместо точного расположения комнаты спросить: "Вот от той двери, напротив которой я стою, справа или слева находится дверь, за которой лежит сокровище?" вместо точного расположения комнаты.

    Иначе говоря, стоит задать вопрос, на который можно было бы дать только один ответ из двух возможных вариантов. "Да-Нет", "Лево-Право" и т. п.

    Допустим помощник отвечает: "Слева.".

    Тогда:

    Я: Ты можешь забыть все те двери, которые были справа и принять те, которые слева, за новый ряд?

    Он бы ответил "Да." или "Нет.".

    -------------

    Я: Точно забыл?

    Помощник: Да.

    -------------

    И далее, я бы встал напротив середины нового ряда дверей и повторил бы весь сценарий, всю цепочку вопросов и указаний до вопроса "Точно забыл?".

    Что думаете?


  1. Rikhmayer
    25.08.2022 13:11
    +1

    Заменят ли нейросети дизайнеров — пока сказать сложно.

    Мне чудится такой апокалиптичный самоподдерживающийся сценарий: нейронки вытеснят джунов (сначала дизайнеров, а в обозримом будущем может и программистов), а потом настанет какой-то эволюционный тупик, т.к. где найти замену постаревшему сениору, если нет толпы джунов, из которых он должен вырасти и отсеяться? Заменяем сениора нейронкой - качество продукта падает, но деваться некуда - сениора то неоткуда взять (и ИИ тоже не у кого научиться). Ну и дальше как с картошкой и Ирландцами. Картошка дорожает? Покупаем больше картошки. Нейронки справляются всё хуже? Вешаем больше задач на нейронку.


  1. dimnsk
    25.08.2022 14:41

    а можно вопрос о поддержке Selectel ?

    Вы вот здесь пишите различные статьи по ML и выступаете экспертами в данной теме, что бы привлекать клиентов на ваши мощности.
    А дальше, вы отслеживаете воронку?
    Как работает ваш саппорт насколько он компетентен?


    1. Doctor_IT Автор
      25.08.2022 15:08

      Здравствуйте! У нас многоступенчатая структура саппорта. Все сотрудники техподдержки проходят обучения по продуктам компании. Например, когда у нас выходит новая услуга, они получают все необходимые вводные от продакт-менеджера и проводят очные встречи с PM и командой разработчиков.

      Также часть сотрудников техподдержки профилируются на более сложных технических кейсах — бывают случаи, когда наши сотрудники находят ошибки в скриптах клиентов, помогают их исправить (хотя это и выходит за круг их ответственности). 

      Наконец, разработчики продуктов всегда на связи и готовы помочь клиентам. Как в тикетах, так и в комьюнити Selectel.

      Скажите, пожалуйста, почему вы заинтересовались нашей техподдержкой?


      1. dimnsk
        25.08.2022 15:36

        >>Скажите, пожалуйста, почему вы заинтересовались нашей техподдержкой?

        а как вы думаете? мне просто абстрактно интересна она? или потому что я столкнулся с вопиющей некомпетентностью и нежеланием помочь сотрудников вашей многоуровневой поддержки?

        PS многоуровневость поддержки клиентам кажется не важна, в отличии от желания и возможности помочь клиенту отдать вам деньги.

        --- кейс ----
        в обращении задается конкретный вопрос про инференс конкретной модели, с просьбой помочь подобрать сервер, в ответ получаем отписку со ссылками на конфигурации

        цитата
        >> "Специальная оптимизация и тестирование нами указанного ПО на серверах не проводилась, поэтому мы не можем рекомендовать какие-то конкретные конфигурации "

        вопрос был про попсовую модели от huggingface, а не что с марса


        1. Doctor_IT Автор
          25.08.2022 16:22

          Рекомендовать конкретные конфиг действительно иногда непросто. Напишите, пожалуйста, мне в директ номер тикета (если вы обращались из тикета) или просто уточните, куда конкретно вы обращались за поддержкой. Возможно, вам больше подойдет отдел пресейлов.


  1. Nikita_Igorevich
    26.08.2022 11:03

    Так дизайнера или иллюстратора? Авторам подобных статей стоит уж определиться. Сложные интерфейсы вам тоже нейронка делать будет?