Как писать промпты для генерации изображений: часть 2 / forpes.ru

Главная
Как писать промпты для генерации изображений: часть 2

Как писать промпты для генерации изображений: часть 2 +8

16.05.2025 16:42

Morgothraw 3 3200 Источник

Теперь, когда мы знакомы с теорией, можем взглянуть на практическую часть. Когда дело доходит до практики, важно помнить и знать ключевые принципы, которые помогут вам создавать эффективные промпты.

Сейчас мы рассмотрим различные варианты создания промптов, варианты их улучшения и дополнительные инструменты для повышения эффективности работы с искусственным интеллектом. Надеюсь, что данный материал подарит вам новые идеи и расширит ваш кругозор.

Приятного прочтения!

Синтаксис промптов

Также, вы можете указывать приоритеты, использовать различные конструкции при написании своих промптов. Давайте разбираться, что это и как это можно использовать:

1. Weight

Weight, или же вес — это «важность», которую модель присваивает каждому слову или фразе. Чем больше вес, тем больше приоритет.

Возьмём промпт “beautiful landscape, high mountains, river”, или же на русском: “красивый пейзаж, высокие горы, река”

Для Midjourney будет использоваться ::, но веса работают только для следующих версий: 1, 2, 3, 4, Niji 4, 5, Niji 5, 6, Niji 6 и 6.1, я буду использовать версию 6.1

*beautiful landscape, high mountains::2, river::1*

Как можете видеть, для гор задаётся наивысший параметр (2), они и выделяются на основном фоне лучше остального.

*beautiful landscape, high mountains::1, river::3*

Здесь река имеет параметр 3, что делает её наиболее выделяющимся элементом на изображении.

Не везде настройки будут одинаковыми. Например, для Stable Diffusion вес обозначается так: (), [], или же (prompt:значение).

() - увеличивает вес в 1/1.1 раза

[] - уменьшает вес в 1/1.1 раза

*beautiful landscape, (((high mountains))), [river]*

Горы берутся в тройные скобки ((())), что задаёт им вес 3. Река в одиночных квадратных скобках [], это вес -1.

*beautiful landscape, [[high mountains]], (river:2)*

В этом примере у реки параметр 2, горы получают пониженный приоритет. Указывать вес через (prompt:weight) удобнее тем, что не нужно считать скобки, и можно указывать дробные значения.

2. Aspect Ratio

Дословно — соотношение сторон. Этим параметром можно задать размерность вашего изображения.

Midjourney для этого использует --ar в своих промптах.

Для Stable Diffusion WebUI доступны расширения, например, Aspect Ratio Selector.

В промптах для DALL-E можно указывать (Aspect Ratio 9:16)

*beautiful landscape,high mountains,river --ar 2:3*

3. Seed

Параметр --seed — это один из ключевых инструментов для контроля случайности при генерации изображений. Он позволяет воспроизводить результаты и тонко настраивать ваши работы.

Сид имеет значение от 0 до 4294967295, при указании одного сида изображения будут довольно похожими, данный параметр указывает начальную точку генерации изображения. Если не указывать сид, то Midjourney будет выбирать его случайно, чтобы изображения различались даже при одинаковых запросах.

*Загадочная ночная поляна с разрушенным, заросшим храмом --seed 123*

*загадочная ночная поляна с разрушенным, заросшим храмом и светящимися кристаллами --seed 123*

Как можете видеть, результаты практически идентичны, во втором промпте я добавил светящиеся кристаллы и получилось аналогичное изображение, но с новой деталью.

4. Negative Prompt

Негативные промты Midjourney — текстовые команды, которые вы можете добавить к исходному промпту. Так вы объясните нейросети то, что вы не хотите видеть в сгенерированном изображении. Негативные промты Midjourney работают путем применения отрицательного веса в отношении нежелательных элементов или указания исключить их, что снижает вероятность их появления на выходе.

Можно использовать негативный промпт двумя способами:

Через параметр --no.

Горный пейзаж --no река

Через отрицательные веса, от -0,5 до -1.

Горный пейзаж, река::-1

*Горный пейзаж с заснеженными вершинами*

*Горный пейзаж с заснеженными вершинами --no река*

В первом промпте я указал только горный пейзаж, но нейросеть сгенерировала реку, поэтому через негативный промпт мы убираем её и получаем нужный нам результат.

Каждая модель обладает своей "личностью" и подходом к творчеству, поэтому результаты могут сильно отличаться даже при одинаковом промте. Пробуйте разные формулировки, добавляйте больше деталей или изменяйте параметры, чтобы добиться именно того результата, который вам нужен.

В конечном итоге, работа с ИИ — это процесс творческого взаимодействия, где важно адаптироваться к особенностям каждой модели и использовать их сильные стороны для достижения ваших целей.

Варианты создания промптов

Иногда сложно создать нужный, или уникальный промпт, который вам нужен, нет мыслей для новых изображений, всё получается шаблонно.

И вы задаётесь следующим вопросом: “Где ещё черпать идеи для новых запросов, если ничего не лезет в голову?” Сейчас мы с вами рассмотрим некоторые инструменты, которыми можно пользоваться в таких ситуациях.

ChatGPT

Можно просить искусственный интеллект, чтобы он сгенерировал нам промпт. Давайте попросим ChatGPT написать нам промпт для Stable Diffusion.

Вот что из этого вышло:

Летняя поляна в густом лесу, залитая солнечным светом. Мягкая трава и разнообразные полевые цветы покрывают землю, создавая яркий ковер. Вокруг поляны высокие деревья с пышной зелёной листвой, сквозь которую пробиваются солнечные лучи. Легкий ветерок шевелит листья и траву. В центре поляны стоит старое деревянное полено, окруженное порхающими бабочками. Теплая и спокойная атмосфера, вызывающая ощущение уюта и безмятежности. Реалистичный стиль, живописная сцена природы.

Если у вас есть картинка, на основе которой нужно сделать промпт, то ChatGPT тоже может вам в этом помочь. Нужно прикрепить изображение файлом и написать: “Напиши промпт на основе этого изображения”, или что-то подобное.

Я попробовал этот промпт в генерации. Как можете видеть, результат действительно очень схож с оригиналом. Очень удобная функция, когда хочешь повторить изображение, но не знаешь как подойти к написанию промпта.

BotHub

В Bothub есть ещё один вариант создания промптов. Здесь существует множество пресетов для различных ситуаций. Сейчас я покажу вам пресет для создания промптов.

Нажмём сначала на панель, обведенную в кружочек. Далее выбираем “Пресеты”

Здесь вы можете увидеть кучу пресетов и выбрать нужный вам. Я написал в поле поиска “Промпт” и получил множество пресетов к моему запросу. Нажав на кнопку справа сверху, вы можете создать свой собственный пресет.

Также можно попробовать писать “промт/prompt” для получения новых результатов.

Вы также можете настроить здесь категорию и модель

Я попробую этот пресет, он предназначен для ИИ Flux

Вот что я получил на свой запрос “Красивая природа”:

Сначала капсом идёт название промпта, потом уже сам промпт.

Я попробую использовать первый из этого списка:

“MAJESTIC MOUNTAIN LANDSCAPE

breathtaking photorealistic landscape of snow-capped rugged mountains rising dramatically against a vivid blue sky, lush evergreen pine forest covering the lower slopes, crystal-clear alpine lake reflecting the peaks perfectly in its still waters, morning golden sunlight casting long shadows across the valley, small wooden cabin with smoke curling from chimney nestled among trees, distant eagles soaring above peaks, pristine wilderness untouched by civilization, professional nature photography with sharp details and rich colors”

На русском это будет:

“ВЕЛИЧЕСТВЕННЫЙ ГОРНЫЙ ПЕЙЗАЖ

захватывающий фотореалистичный пейзаж: заснеженные скалистые горы, эффектно возвышающиеся на фоне ярко-голубого неба, пышный вечнозеленый сосновый лес, покрывающий нижние склоны, кристально чистое альпийское озеро, в спокойных водах которого прекрасно отражаются горные вершины, утренний золотистый солнечный свет, отбрасывающий длинные тени на долину, маленькая деревянная хижина с вьющимся из трубы дымом, расположенная среди деревья, далекие орлы, парящие над вершинами гор, девственная природа, не тронутая цивилизацией, профессиональная фотосъемка природы с четкими деталями и насыщенными цветами.”

Хоть ИИ и даёт промпты на английском, в Bothub встроен автоматический переводчик, который все входящие запросы переводит на английский язык.

Если вы тоже хотите использовать этот способ, а также получить доступ ко множеству других нейросетей, то у Bothub есть реферальная ссылка, где после регистрации вам начислят 100 000 внутренней валюты - капсов, которые вы можете потратить на любую нейросеть из довольно обширного списка.

Настройка ИИ для новых результатов

Здесь же вы можете настроить нужную вам модель искусственного интеллекта. Можно получать разнообразные результаты, меняя параметры у модели. Сейчас я продемонстрирую вам как это работает на примере нейросети Stable Diffusion.

Для начала нужно зайти в чат, выбрать нейросеть и открыть боковую панель.

В красном кружке будет кнопка “Открыть боковую панель” (Подпись к картинке)

Здесь можно выбрать:

Соотношение сторон: позволяет вам менять ширину и высоту генерируемого изображения.
Негативный промпт: включает текстовую подсказку для исключения определенных объектов или содержимого генерируемого изображения.
Качество: данный параметр определяет качество изображения, которое будет создано.
Сила преследования промпту: контролирует баланс между соблюдением текстовой подсказки и качеством/разнообразием изображения. Чем больше данный параметр, тем ближе изображения к промпту, но может снизиться общее качество картинки.
Шаги: число шагов диффузии, которые будут выполнены. Высокие значения приведут к более долгой генерации, но к более высокому качеству изображений.

Я показал именно настройки Stable Diffusion. Если выбрать другую нейросеть, то настройки будут различаться, от тех, что приведены выше.

Сейчас попробуем поменять параметры и сгенерировать изображения. Генерировать буду на основе данного промпта: “Рыжий кот с густой шерстью, облаченный в маленькую золотую корону с бриллиантами, сидит на краю старинного трона, его зелёные глаза светятся гордостью, фон — мягкий закатный свет, подчеркивающий сияние короны и переливы шерсти.”

Для начала посмотрим, какое изображение нам сгенерирует нейросеть, без изменения настроек:

Например, вот такой будет результат, если выставить максимальную силу следованию промпту.

А вот такой результат при минимальной силе следования промпта.

Для повышения качества изображения, я выставил параметры качество и шаги на максимум и получил такое изображение:

Например, в Midjourney имеются вот такие настройки:

Поменяв различные параметры, Midjourney выдал мне вот такого кота на тот же промпт.

Можете сами зайти и попробовать поменять положение ползунков, выбрать определенный стиль и режим.

Комбинирование стилей

Для разнообразия ваших генераций, можно смешивать различные стили, добавляя туда детали. Можно попробовать объединить стимпанк с магией, готику и биопанк, античность смешать с хоррором. Идей неограниченное количество, нужно только пробовать.

Дирижабль в стиле стимпанк с латунными механизмами и хрустальными двигателями парит над викторианским городом. На его поверхности выгравированы светящиеся магические руны, испускающие радужный пар. На палубе работают заводные автоматы с глазами из драгоценных камней. Вихри фиолетовой и лазурной магии смешиваются с угольным дымом. Внизу виднеются готические шпили и промышленные трубы. Закатное освещение, проходя через механические крылья, подчеркивает латунные детали.

Древний храм, затерянный в густых джунглях, его классические колонны и статуи покрыты мхом и трещинами. Сквозь разрушенные стены пробивается зловещий красный свет. Статуи древних богов ожили и их лица искажены в ужасных гримасах, в глазах светится потусторонний огонь. Тени на стенах принимают формы мифологических чудовищ, готовых выпрыгнуть из темноты. В воздухе чувствуется тревожный шепот и треск сухих ветвей под невидимыми шагами.

Постапокалиптический город, где здания сложены из детских игрушек LEGO, а небо выглядит как акварельный закат в стиле Моне. Вдалеке виднеется розовый единорог, летящий на радуге.

Комбинирование стилей позволяет создавать миры, которые существуют на границе реальности и фантазии. Когда наш мозг привыкает к одному стилю, то их комбинирование меняет представление и происходит диссонанс, что делает изображение более запоминающимся. Это также может помочь вам с созданием собственного стиля для своих игр, или каких-либо других произведений.

Ошибки генерации

При работе с нейросетями для генерации изображений часто возникают типичные ошибки, которые могут снижать качество результата. Возникает это чаще из-за неполноты промпта, но также возможна техническая ограниченность модели. Сейчас мы рассмотрим некоторые ошибки и как с ними бороться.

Генерация текста

Нейросети плохо справляются с генераций текста на изображениях, потому что у них было мало обучающего материала. Вот алфавит, который сгенерировала мне нейросеть.

Или логотип “История мудрого кота”

Как исправить:

Написать точный промпт: "Плакат с надписью 'Hello World' крупным шрифтом Arial, чёткий текст, чёрные буквы на белом фоне, минималистичный дизайн", иногда может помочь.
Исправить текст вручную с помощью графических редакторов.
Использовать gpt-image-1, данная модель хорошо справляется с генерацией текста на изображениях

Анатомические аномалии

Нейросети иногда допускают ошибки в анатомии человека или животных. Это может проявляться в виде лишних/недостающих пальцев, деформированных частей тела или нереалистичных пропорций.

Как исправить:

Добавьте детали в промпт: укажите количество пальцев, нормальные пропорции тела и естественную позу.
Используйте негативный промпт: --no лишние пальцы, деформированные черты лица.
Увеличьте параметр CFG Scale (сила следования промпту) для более точного соблюдения запроса.

Искажение текстур

Текстуры объектов могут выглядеть нереалистично, особенно если они сложные (например, мех, волосы или ткань).

*Гостиная, панно на всю стену с изображением неба*

Как исправить:

Уточните текстуры в промпте: напишите "мех с мягкими переливами", "текстура ткани с естественными складками".
Используйте высокое разрешение для детализации текстур.
Включите постобработку, чтобы улучшить качество текстур.

Неестественные движения

Движения людей или животных могут выглядеть нелогичными или неестественными.

Как исправить:

Опишите позу и движения подробно: "руки держат чашку естественно", "движения плавные и реалистичные".
Увеличьте количество шагов генерации (Steps), чтобы модель лучше обрабатывала детали.

Чтобы минимизировать варианты неверной генерации, для Stable Diffusion есть ControlNet, демо доступна по ссылке, проект есть на гитхабе.

ControlNet — это мощное расширение для Stable Diffusion, которое позволяет управлять генерацией изображений с помощью различных видов контроля (например, скелетных карт, линий контура, глубины).

Основные возможности ControlNet:

Скелетные карты: Позволяют точно контролировать позы человека или животного.
Контурные карты: Указывают границы объектов, что помогает избежать смазывания или неправильной интерпретации форм.
Глубина поля: Добавляет реалистичный эффект размытия фона, который часто вызывает трудности у нейросетей.
Текстуры: Помогает правильно наложить текстуры на поверхности объектов.

Процесс работы с ControlNet

Загрузка исходного изображения:

Вы загружаете базовое изображение (например, черно-белый контур или скелетную карту).

ControlNet анализирует данное изображение и использует его как основу для генерации.

Применение промпта:

После загрузки изображения вы можете добавить текстовый промпт, описывающий желаемые элементы (например, "реалистичный портрет человека").

ControlNet использует информацию из изображения и промпта одновременно, что значительно повышает точность результата.

Настройка параметров:

Можно регулировать силу влияния ControlNet (ControlNet Weight) и другие параметры генерации (например, CFG Scale, Steps).

Результат:

ControlNet гарантирует, что ключевые элементы (поза, форма объектов, текстуры) будут соблюдены, что минимизирует аномалии и залипания.

Данное расширение позволяет максимально контролировать полученный результат.

QoL

QoL — Quality-of-Life, “качество жизни”, это дополнительные инструменты, которые значительно упрощают работу. Они делают взаимодействие с ИИ более удобным, быстрым и эффективным.

Рассмотрим некоторые из них:

PromptHero

PromptHero — это платформа, которая предоставляет доступ к огромной базе готовых промптов, созданных сообществом пользователей. Она особенно полезна тем, кто хочет быстро найти вдохновение или примеры для своих запросов.

Функционал:

Поиск промптов по ключевым словам (например, "фэнтези", "киберпанк", "реализм").
Просмотр результатов генерации, которые были созданы на основе этих промптов.
Возможность адаптировать чужие промпты под свои задачи.

Lexica

Lexica — это мощная поисковая система, которая фокусируется на промптах для Stable Diffusion. Она позволяет находить готовые запросы и изучать результаты их генерации.

Функционал:

Можно осуществить поиск по фото. После загрузки вашего изображения произойдет обратный поиск по вашей картинке и вы получите похожие результаты.
Прямо на сайте можно генерировать собственные изображения, но для этого требуется подписка.
Также имеется текстовый поиск, большая база промптов и результатов к ним.

Promptomania

Promptomania — это инструмент, который помогает автоматизировать процесс создания промптов. Он предлагает готовые шаблоны и конструкции, которые можно комбинировать для получения уникальных запросов.

Функционал:

Выбор различных нейросетей для генерации.

Выбор изображения для создания промпта на его основе. Также, можно добавить текстовый промпт и создавать массивную конструкцию из изображений и текста.
Есть куча тончайших настроек, которые можно применить для полной настройки вашего промпта.
Также, у них есть библиотека промптов. Не такая большая, как у прошлых, но может кому-то понадобится.

Итог

Надеюсь, вы узнали для себя что-то новое: ранее неизвестные вам техники генерации промптов, или может подцепили новые для себя идеи — это всё может помочь вам в создании своих изображений.

Главное - проявляйте креативность и экспериментируйте. Чем больше вы пробуете разные подходы, тем лучше понимаете, как добиться именно того результата, который задумали.

А как создаёте промпты вы? Может у вас есть свои способы, которые не были озвучены в данной статье? Прошу поделиться своим опытом в комментариях.

Спасибо за прочтение!

Комментарии (3)

Dorial
17.05.2025 00:52
#28315008
Спасибо за статью, вопрос остался - как влиять на вес и игнорировать его, если он сильный? Например, как нарисовать кота без усов. Негативный пропмт не помогает, модель рисует кота с усами.

F1eex
17.05.2025 00:52
#28315026
Интересные статьи, плюс за них и в карму) Может быть вы расскажете, как создавать изображения с реальной техникой без ее искажения? Например на мой запрос: "летящий над облаками боинг 747 вдали закатное солнце" все было красиво, вот только самолет был ужасно искажен, я так и не добился его реальности. Там то двигателей не то количество, то крыльев и т.п.

WuJiXingZhe
17.05.2025 00:52
#28315794
Обе статьи достаточно познавательны, но рассматривают процесс генерации изображений исключительно как визуализацию уже готового образа, то есть с ремесленной точки зрения.

Однако в апреле OpenAI обновили принцип генерации изображений в среде ChatGPT (связка GPT-4o + DALL·E), и теперь появилась возможность создавать изображения не просто по описанию, а на основе когнитивной среды, выстраиваемой внутри диалога.

Что вы думаете об этом? Возможно ли, что следующим шагом станет генерация образа не из текста, а из состояния восприятия?

Как писать промпты для генерации изображений: часть 2 +8

Варианты создания промптов

Комбинирование стилей

Ошибки генерации

QoL

Итог

Комментарии (3)

Dorial

F1eex

WuJiXingZhe