Посты блогов с изображениями — это в 2,3 раза больше вовлечённости. Но проблема вот в чём — мы делаем движок запросов для потоковых таблиц. И как же выбирать изображения для технических тем?


Мы — небольшая команда, в основном из инженеров, поэтому у нас нет ни времени, ни бюджета, чтобы заказывать индивидуальные иллюстрации для каждого поста.

До сих пор мы проводили 10 минут за просмотром связанных, но в конце концов плохо подходящих изображений на сайтах стоковых фото, загружали что-нибудь не кошмарное, вставляли в блог и нажимали кнопку публикации. А сможет ли DALL-E сделать миниатюры блога лучше, дешевле и вообще просто забавнее? Да, поклонники квантов, это возможно.

Я потратил выходные и 45 долларов США на кредиты OpenAI, чтобы создать новые эскизы, которые лучше отражают содержание более чем 100 сообщений из нашего блога. И вот весь блог с более чем сотней миниатюр.

Замена миниатюр на изображения DALL-E, до и после

Больше всего мне нравится изображение ниже, для поста, где обсуждаются кое-какие наши готовые контейнеры Docker:

Blue whale with stacks of shipping containers on it’s back, cgsociety artstation trending 4k.jpg

Запрос: «Blue whale with stacks of shipping containers on its back, cgsociety artstation trending 4k».

10 вещей, которые я узнал о генерации изображений через ИИ


1. Подбор запроса — дело трудное, требует творческого подхода


Подбор запроса корректирует результат. И это сложно. Первая задача для технических тем — придумать творческую идею. Мой подход — быстро перечитать каждый пост, сделать заметки о любых изображениях, которые во время чтения приходили в голову, а ещё искать связанные с любой из этих тем изображения и логотипы.

Я думал о том, что приходит на ум при чтении, и придумывал творческий подход к содержанию или метафоре. Например, в нашей недавней статье анонсируется новая клиентская библиотека Go. В голову пришёл синий суслик — талисман Go, который просматривает потоки табличных данных на нескольких мониторах.

Звучит круто, но заставить его появиться на экране оказалось непросто. 4 попытки потребовалось, чтобы синим стал суслик, а не мониторы, и ещё 5, чтобы картинка мне понравилась. Я понял, что, чем конкретнее запрос, вплоть до избыточности, тем лучше.



Запрос: «a cute blue colored gopher with blue fur programming on multiple monitors displaying many spreadsheets, digital art».

Может быть, так случилось потому, что это была моя первая попытка. Но впереди было ещё 100 постов, и я надеялся, что с практикой смогу стать лучше. Очень круто было бы просто скормить DALL-E целую запись в блоге и получить что-нибудь классное, но даже с магией GPT-3 люди, наверное, ещё этого не достигли.

2. С практикой вы научитесь писать подсказки


Когда вы создаёте учётную запись, то получаете 50 кредитов. Вы можете купить больше кредитов. 1 кредит равен 1 подсказке (0,13 доллара США за изображение). Каждый запрос даёт 4 изображения на выбор. Несмотря на такую щедрость, на мой взгляд, чтобы хорошо генерировать подсказки этого недостаточно. Первые несколько запросов — это 6 или 7 попыток до чего-то приемлемого. И теперь, когда я написал сотни этих запросов, я часто могу получить желаемое за 2 или 3 попытки.



Первая попытка! Запрос: «А pipe coming out of the wall in a blue room with bitcoins pouring out of it, digital art 3d render».

3. Стилистические модификаторы имеют решающее значение


Обычный запрос без модификатора стиля часто выглядит довольно скучно. Получится или слегка мультяшно, как неудачная фотография, или как плохой коллаж, но стилистические подсказки сильно улучшают результаты. Вот несколько советов:




Запрос: «cottagecore robot reading a book on a porch»

Ко многим статьям в блоге я добавил «artstation», «cgsociety», «4k» и «digital art». DALL-E также даёт полезные советы, пока вы ждёте 10 секунд до вывода картинки, и показывает вам примеры стилевых подсказок к запросам.



4. Стоит просмотреть r/dalle2, чтобы получить представление о том, что входит в хорошую подсказку


Немного поиграв, я понял, что практика — это хорошо, но совершенствоваться нужно быстрее. Меня вдохновило изучение изображений на r/dalle2, это дало идеи, как писать подсказки получше. А ещё я нашёл полезную электронную книгу в PDF.

5. Возможно, вам придётся отфотошопить бессмысленный текст


Иногда запрос генерировал картинку с текстом. К сожалению, DALL-E действительно затрудняется с текстом, и часто текст бессмысленный. Imagen от Google якобы лучше работает с текстом, и я с нетерпением жду возможности попробовать его. Буду признателен за любые советы по запросам, которые намекают, что я не хочу, чтобы выводился какой-то текст.

Удалить бессмысленный текст

Что не так с этим текстом? По крайней мере, его можно быстро отфотошопить.

6. Остерегайтесь неожиданных нарушений правил


Пару раз меня предупреждали о нарушении содержимого запроса: после предупреждения DALL-E ничего не выводит. Слишком большой список запрещённых слов может дать вам случайные ложные срабатывания. Однажды я использовал слово «shooting», чтобы описать луч света, пронизывающий небо. Звучит неплохо, но я думаю, DALL-E не нравится слово «shooting» в любом контексте. Было бы лучше, если бы в предупреждении прямо указывалось, какое слово не нравится DALL-E: иногда мне оставалось только гадать. В другой раз я имел в виду монитор сахара в крови. Полагаю, что DALL-E не будет генерировать ничего, что связано со словом «blood», даже если сам запрос не связан с насилием.

7. Изображения можно редактировать


Вы можете не получить всё, чего хотелось бы, в одном запросе, но, возможно, сможете добиться нужных фрагментов по отдельности и собрать их. А ещё можно загрузить изображение обратно в DALL-E, чтобы отредактировать с помощью ИИ или обрезать по-другому. Я намеренно очень мало редактировал наш блог и ограничился удалением тарабарщины. Если бы я использовал DALL-E для задачи серьёзнее, для создания предметов искусства, то собирал бы изображения чаще. Использование ИИ в качестве инструмента в традиционном рабочем процессе, похожем на фотошоп, может приносить пользу долгий срок.

8. Получить конкретную вещь, определённый цвет, определённое количество чего-то или что-то в определённом месте сложно


Если вы хотите, чтобы на картинке 12 индеек пересекли финишную черту, то получите от 4 до 20 индеек. Не важно, говорите ли вы «12», «двенадцать», «дюжина» или другими способами. Если вам нужно только 2 или 3 чего-то, DALL-E будет работать нормально, но она испытывает трудности с большими числами. Может быть, она немного похожа на маленького ребёнка, не может считать большие числа? Если вам нужны «сотни» чего-то, качество будет не очень.



Это не 12 индеек. Запрос: «Film still, establishing shot of 12 turkeys in marathon crossing a checkered finish line on a street in a race, golden hour, low angle».

9. Ии не вытеснет человека в искусстве


Генератор изображений с ИИ не сделает вас лучшим художником, так же как Canon 6D Mark II — лучшим фотографом. По-прежнему важны отбор и чувство вкуса. Уверен, что во времена дебюта фотошопа графические художники старой школы сетовали на то, что он убьёт индустрию, слишком упростив всё. Этого не случилось. Системы ИИ — всего лишь инструменты, которые хорошо впишутся в процесс любого художника.

Если бы я прямо сейчас был генеральным директором Adobe, я либо стремился бы обучить первоклассный конкурентоспособный генератор изображений с ИИ, либо запустил бы его с приобретением, таким как midjourney, а затем поставил бы всё на редактор на основе этого ИИ. Будущее, когда я могу открыть холст любого размера (а не только 1024х1024) или использовать существующую фотографию, затем начать выбирать произвольные её части, а затем подсказывать, что и где я хочу, было бы чертовски полезной программой. Figma стала огромным сдвигом, и сегодня она успешнее Adobe. Я мог бы увидеть, как редактор изображений на основе ИИ сокрушит Photoshop или станет его лучшей функцией.

10. Я бы не стал долго задерживаться на $GETY (Getty Images)


Хотя люди-художники в ближайшее время не исчезнут, исчезнуть могут сайты стоковых изображений. Как человек, который работал графическим дизайнером и потратил тысячи долларов на стоковые изображения, я определённо вижу будущее, когда смогу запросить синюю акулу в альфа-маске и использовать её как основу в любом Photoshop-проекте для клиента.

мем с акулой

Чтобы добраться до акулы справа от ИИ, потребовалось две секунды. До того, как реальностью станет вышесказанное, осталось всего несколько лет (или месяцев?).

Крупнейшая фотокомпания Getty Images недавно стала публичной (на самом деле они провели SPAC). Делать ставку на их долгосрочный успех я бы не стал. Может быть, они останутся только для исторических событий реальных людей?

Запрос киллер-фичи для Google




Я думаю, что генерация изображений с помощью ИИ идеально подходит для создания изображений слайдов. Очень часто требуется метафора изображения для сопровождения слайда, и это идеально для задачи. Я целыми днями собирал изображения для презентаций на конференциях, для генеральных директоров и отделов продаж. И вижу будущее, в котором это могло бы быть более эгоистичным. Вставьте Imagen прямо в слайды Google.

Вывод


Я был в восторге, заменив наши 100 или около того постов в блоге изображениями, сгенерированными ИИ. Это стоило 45 долларов? Думаю, да. В среднем, я бы сказал, что мне потребовалось несколько минут и около 4–5 подсказок на пост в блоге, чтобы получить то, что меня удовлетворило. В месяц мы тратили больше времени и денег на стоковые изображения и получали результат хуже, а уникальные, запоминающиеся изображения помогут читателям лучше запомнить наш контент.

Я обнаружил, что, как только находил что-то понравившееся, то, как правило, повторно использовал много одних и тех же стилистических модификаторов. Это заставило меня задуматься, должны ли мы разработать единый стиль для нашего блога, чтобы все наши изображения выглядели как связанный набор или имели фирменный стиль. Но как у вас вообще может быть фирменный стиль, когда изображения создаёт ИИ?

Как он изменит искусство? Сделает ли это новостные фотографии тем, чему нельзя доверять? Я не знаю ответа ни на один из этих вопросов.



Скидка 45% по промокоду HABR
А мы поможем прокачать ваши навыки или освоить востребованную профессию с самого начала:

Комментарии (14)


  1. akakoychenko
    24.08.2022 00:08
    +5

    Интересно, насколько сильным будет удар в спину от копирастов, когда они поймут, что вместо игрушек и восторгов в твиттере сформировался новый рынок, где гигантские библиотеки медиаправ уже не рулят. Думаю, будут попытки метчить сгенерированные изображения с базами того же Getty. А какие будут последствия, если каким-то образом выйдет, что в обучающую выборку попадут изображения с проблемными правами (к примеру, дизайнер купил картинку для личного использования, выставил в паблик, где ее сохранил краулер, собирающий выборку для НС) и потом их части вылезут в итоговых материалах?


    1. sh4d0w28
      24.08.2022 04:40
      +3

      Насколько я понимаю, абсолютно точной копии изображения ни один генератор вам не выдаст. Те же части изображения будут деформированы и скорее всего скомбинированы до степени неузнаваемости. Предполагаю, что создатели также будут ограничивать любое упоминание зарегистрированных торговых марок в генерации.


    1. Zara6502
      24.08.2022 09:08
      +5

      очевидное решение от копирастов - запрет (или платное) для запросов на copyright контент. Например вышел новый фильм про Соника, вы решили сделать принт ребенку, сами, создали запрос, а вам система предлагает заплатить $9.99 из которых $9.98 заберёт Сега например. Это как в анекдоте: "Господа, из зоопарка Тель-Авива убежал енот, все кто его видел - занесите в кассу зоопарка 25 шекелей".


  1. Dolios
    24.08.2022 08:22
    +7

    Посты блогов с изображениями — это в 2,3 раза больше вовлечённости

    Как же задолбал этот информационный мусор — картинки не по смыслу поста, а чтобы было. Мне всё это напоминает музыкантов. Одни просто отлично поют и играют, собирая стадионы, а другие выпрыгивают из трусов на сцене, создавая больше вовлеченности..


    1. Zara6502
      24.08.2022 09:10
      +1

      поколение жмякающих в картинки - "не читал, но картинку видел" XD


  1. andreishe
    24.08.2022 09:22
    +1

    Canon 6D Mark II — лучшим фотографом.

    Упала планка хорошего фотоаппарата…


  1. Newbilius
    24.08.2022 09:42
    +4

    Есть что-то ироничное в том, что эти КДПВ в мобильной версии хабра даже и не отображаются... а действительно они улучшают привлечение внимания? Кто-то это тестировал в последнее время, или это уже просто устаревшая информация и расхожее заблуждение?


    1. staticmain
      24.08.2022 11:35

      Мне ирония больше видится в том, что таких постов "ии убивает художников" выходит в последнее время все больше, а по факту при попытке запросить что-то простейшее тот же Dall-e ломается:

      Лошадь в шляпе

      Самолёт в стакане


      1. CatInWeb
        24.08.2022 13:21
        +3

        Можете подсказать в какой версии Dall-e были сделаны эти изображения? Почему-то совсем не похоже на Dall-e 2, к которому допускают пока что не всех.

        Больше похоже на фанатский Dall*e Mini "курильщика", вообще от других разработчиков.


        1. staticmain
          24.08.2022 14:40
          -1

          1. Lagovi
            24.08.2022 19:43

            Дичину какую-то генерит на любой запрос. А в одном случае на фоне воссозданы водяные знаки iStock, видимо выборка для обучения была совсем без отбора.


            1. staticmain
              24.08.2022 21:56

              Ну эо к вот этим парням, которые его создали вопросы: https://habr.com/ru/company/sberbank/blog/586926/ (спойлер - это Сбер)


      1. vagon333
        24.08.2022 16:37
        +1

        Ну, ломаются все ИИ при неудачных критериях, не только Dall-e, но и Midjourney.
        Анализирую картинки Midjourney на ключевые слова: https://www.fartofart.com
        Вывод простой: большинство "шедевров" из-за неудачных критериев.


    1. lolipoka
      25.08.2022 22:10

      Проверьте настройки ленты рядом с профилем, картинки не отображаются, если выбран компактный вариант.