
Я цифровой фотохудожник. Я работаю в гибридном жанре между цифровой фотографией и цифровой живописью. С помощью различных фильтров и эффектов в растровом редакторе я отрисовываю сказочные сюжеты поверх собственных фото. Сейчас у меня есть собственный сайт на базе ArtStation, страничка на фотохостинге Flickr, творческая страничка ВК и профиль на DeviantArt.
Нейросети я обычно не использую – предпочитаю творить сам. Но недавно всё-таки у меня появилась задача, для которой мне потребовалась творческая коллаборация с каким-нибудь ИИ. И я решил испытать, какой лучше!
Постановка задачи. Дано/найти
Мои работы обычно выглядят просто как фото – только сделанные в сказочном или нереальном мире. В принципе, того я и добиваюсь. Но есть один минус – на конкурсах и выставках они тоже оцениваются как фото, несмотря на различие творческой философии и подхода к созданию сюжета. Это приводит к частым отказам и низким оценкам: жюри из числа фотографов важно остановленное мгновение, а не сотворённый мир.
Поэтому, хоть я и не планирую из-за этого кардинально менять стиль, я всё же задумался, как бы можно было вывести мои творения из мира фото и надёжно показать, что они – не фото. А самый лучший способ – вообще превратить их в другой вид изобразительного искусства, хотя бы визуально. Например, применить к ним эффект, имитирующий живопись красками. Даже в цифровом виде они в таком случае будут бросаться в глаза любому оргкомитету именно как цифроживопись, а не фото.
Более того, такая обработка облегчает корректную постеризацию изображения в специальных программах для создания картин по номерам – что открывает путь к ещё более радикальному изменению формы артов. Теоретически из них можно было бы создать картины по номерам (самому или с помощью компаний, выпускающих подобные раскраски) и раскрасить собственные арты вручную.
Применить эффект к фото сейчас можно двумя способами: с помощью моделей искусственного интеллекта (ИИ), принимающих графический промпт, или традиционными способами в растровом графическом редакторе. В этой статье я протестирую несколько моделей ИИ в сравнении с традиционной методикой – и попробую разобраться, какие лучше подходят для преобразования цифрового фото-арта в акварель (ну или в холст/масло).
Материалы и методы. Как и что я тестировал
В тестировании участвовали нейросети, ранее хорошо себя зарекомендовавшие в обработке изображений и специализирующиеся именно на ней. Универсальные сервисы типа ChatGPT из рассмотрения исключались – во-первых, именно по причине своей универсальности, во-вторых – потому, что мощности ChatGPT мне сейчас нужны для другого проекта (лингвистического – см. мои статьи по компьютерной индоевропеистике). Так что для равновесия ограничился сервисами, используемыми в основном для создания изображений.
Важным критерием включения была способность нейросети принимать на вход графический промпт – поэтому из анализа был исключён, например, Kandinsky. Он просто не имеет принимать уже готовые изображения на обработку. В итоге в сравнении поучаствовали 4 ИИ-сервиса: Google Gemini (с прорывным графическим движком Nano Banana), Midjourney, "Шедеврум" и Prisma. Графический редактор GIMP участвовал в сравнении в качестве пятого – традиционного – метода.
В сервисах, управляемых с помощью текстового промпта, использовались простые запросы типа "превратить картинку в акварель" с явным указанием требуемого стиля, но с минимальной детализацией.
Каждый сервис оценивался по пятибалльной шкале в каждом их трёх критериев:
креативность – насколько сам ИИ-сервис добавляет что-то новое и насколько "творчески" он модифицирует изображение;
соответствие цели – насколько направленность модификации изображения соответствует желаниям стилизовать его под акварель;
управляемость – насколько пользователь может контролировать параметры применения эффека.
Я продемонстрирую эффекты на своих собственных артах. По возможности, будут использоваться версии одних и тех же артов, чтобы показать и разобрать различия. Вы сможете сравнить их с исходными версиями артов в моём профиле Flickr – и решить, что вам больше нравится! Ссылки на исходные версии на Flickr также доступны в подписях к рисункам.
Результаты и обсуждение. Что из чего получилось
Начать хотелось бы с нейросети Google Gemini – самой "хайповой" на момент выпуска статьи. Дело в том, что её графический движок Nano Banana позволяет находить недостающую информацию и генерировать правдоподобное изображение даже при отсутствии детальных указаний от пользователя. Ранее пользователи соцсети X/Twitter коллективно испытали его в генерации миниатюр городов, а для меня он создал реалистичную реконструкцию исторического Иисуса (Рис. 1).

Но, как ни странно, в творческой задаче на превращение в акварель Gemini почти полностью проваливается, лишь слегка меняя микротекстуру изображения. Глобально оно остаётся почти неотличимо от оригинала (Рис. 2). С поиском информации и фактчекингом у сервиса всё хорошо, но для стилизации фото это явно не вариант. Списываем сразу.

Оценки Google Gemini/Nano Banana:
креативность: 1
соответствие цели: 1
управляемость: 1
Самый минимум.
До появления Gemini самым ходовым сервисом в мире для изображений был Midjourney – поэтому он заслуженно становится вторым в нашей очереди на тест.
Midjourney наконец-то выдаёт требуемый стиль – его генерации смотрятся прямо как настоящие картины. Правда, с уличного вернисажа. Потому что их сюжет не только кардинально меняется по сравнению с моей задумкой – он становится более банальным.
Меня как художника порадовало, что настроение, цвета и тональность – то, что я и стараюсь нарисовать – нейросеть передаёт. Но сюжет она искажает слишком сильно. На рисунках появляются совы и котики, которых в оригинале не было (Рис. 3, Рис. 4). И это полбеды – в 50% случаев нейросеть вообще рисует лица людей. В то время как даже по моему профилю на Flickr понятно, что людей я на своих артах не изображаю.


Почему так происходит? Как я уже писал в статье о переводе на праиндоевропейский, генеративный ИИ всё делает через... через статистику. Все его "творческие" функции – это лишь хитроумно завёрнутое статистическое предсказание. Он всегда выбирает статистически самое частое – а это и есть "банальное" в нашем обычном понимании! Так что банализация – неотъемлемая часть обработки готового художественного изображения с помощью ИИ. Midjourney в нашем сравнении просто оказался самым хрестоматийным примером генеративного ИИ, воспроизводя его характерные ошибки.
Оценки Midjourney:
креативность: 3
соответствие цели: 3
управляемость: 3
На "удовлетворительно" сработал, но не более.
"Шедеврум" от Яндекса способен обрабатывать готовые изображения только с недавно появившейся функцией "Фильтрум", которая, казалось бы, специально для этого и спроектирована. Но, к сожалению, попытка задать текстовый промпт для фильтрума вручную привела к тому же результату, что и в Midjourney. Нет, вру. Отличается количественно – животных вообще нет, а из цветочков и капель генерируются одни женские лица.
Но в "Шедевруме" есть коллекция фильтрумов, уже созданных другими пользователями – которые, по всей видимости, представляют собой не запомненные словесные промпты, а запомненные конфигурации преобразований, ранее удачно сработавшие на каком-то фото.
Таких фильтрумов в "Шедевруме" очень много, и "Акварельки" там как минимум две. Как раз их применение дало эффект, близкий к ожидаемому (Рис. 5, Рис. 6). Фото были преобразованы в акварельные абстракции, даже с элементами какой-то фантазии и ещё большей ирреальности.


Благодаря большому выбору фильтрумов сервис показывает хорошую управляемость и удачное соотношение креативности и соответствия целям. Но несколько баллов придётся снять. Во-первых, сервис допускает только квадратный формат, как и Midjourney. И как он прикажет мне быть, например, с моим артом "Проснись, дорогая!", который я считаю центральным в своём творчестве? Обрезка уродует его необратимо – так что это непосильная задача как для "Шедеврума", так и для Midjourney. Думаю, минус балл к управляемости будет вполне заслужен.
А во-вторых, всё-таки доступные "акварельные" фильтрумы сильно перебарщивают с абстракцией на и так уже абстрактных артах. Я оставляю очень мало деталей, так что при ИИ-преобразовании с оставшимися надо работать бережно. А "Шедеврум" ведёт себя немножко как слон в посудной лавке, иногда превращая фото в набор пятен.
Банализация также присутствует – например, необычные цветы могут отобразиться как обычные листья, а обычные листья – как необычные цветы. Примеры можно посмотреть в моём профиле "Шедеврума" – наведя указатель мыши на любой арт, можно увидеть слово "Оригинал", клик на которое позволяет прозрачно сравнить генерацию с оригиналом. То есть с моим артом без ИИ.
Оценка "Шедеврума":
креативность: 3
соответствие цели: 4
управляемость: 3
Многих ограничений "Шедеврума" лишено зарубежное приложение Prisma – достаточно старое решение, появившееся ещё до бума языковых моделей. В нём присутствует большой набор эффектов, похожих на "фильтрумы", но при этом у него более удачный баланс между креативностью и сохранением деталей (Рис. 7, 8, 9). И да – формат возможен любой. Это единственное приложение из испытанных ИИ-сервисов, которое хорошо справилось с артом "Проснись, дорогая!" (Рис. 7).



Минус в том, что нет фильтра с названием "акварель" или аналогичным – подбирать приходится ad hoc. Кроме того, для наилучшей управляемости необходима платная подписка – а создатели Prisma так и не выкатили полноценную веб-версию. Мобильное приложение можно оплатить только через магазин приложений. В текущей ситуации, когда встроенные платёжные сервисы не работают в России, даже иностранные карты помогают слабо.
Оценка приложения Prisma:
креативность: 4
соответствие цели: 3
управляемость: 3
Выбирать эффект ad hoc приходится и в GIMP, где тоже нет фильтра с названием "Акварель". Фильтр "Масляная краска" (Рис. 10) довольно скучен, особенно по сравнению с обработкой того же арта в Prisma (Рис. 8). А вот фильтр "Водяные пиксели" оказывается максимально похожим на акварель. Если сравнить Рис. 11 с Рис. 9, видно, что во многом его сюжетный эффект сопоставим с эффектом Prisma при значительном выигрыше в управляемости – параметры можно свободно регулировать. Главное – знать, как! Мне как опытному фотохудожнику кажется привлекательнее более гибкое решение. Но оно подойдёт не каждому пользователю: слишком много надо знать и уметь.


"Водяные пиксели" я однажды внедрил в свой арт при его создании – это арт "Объятия осени" (Рис. 12), целиком созданный в таком "акварельном" стиле. Может быть, в дальнейшем будут ещё арты подобного типа – пока я активно исследую "акварельную" тему и в самом творчестве, и в ремейках.

Креативность у фильтра минимальна – ведь его эффект жётско детерминирован. Но даже для меня он предсказуем не до конца, и я бываю им приятно удивлён. Так что всё-таки не 1, а 2 балла по критерию креативности.
Если брать за основу фильтр "Водяные пиксели", то оценка GIMP будет следующая:
креативность: 2
соответствие цели: 5
управляемость: 5
В итоге для меня по суммарному баллу победил бы GIMP – он набрал 12 баллов. Но мы тут ИИ тестируем, не так ли? В спину волку Уилберу, маскоту GIMP, дышат "Шедеврум" и Prisma, которые оба набрали по 10 баллов и делят между собой 1 место. За ними с небольшим отставанием идёт Midjourney, уступив всего балл. Gemini, который в этой задаче неожиданно промахнулся, плетётся в хвосте. Но помните, что он хорош для других задач!
Заключение
То, что фильтрумы "Шедеврума" и Prisma набрали одинаковое количество баллов, неудивительно. Эти приложения построены на разных решениях. Но они занимают одну нишу и могут рассматриваться как функциональные аналоги. Их результат сопоставим с обработкой в графическом редакторе, хоть и уступает ей – так что могу их рекомендовать для задач стилизации.
Их общей чертой является то, что в предложенной реализации пользователь не задействует текстовый промпт. Это наводит на мысль, что языковые модели и стилизация изображений не очень совместимы. Более выигрышными оказываются старые решения, типа Prisma. Это похоже на кейс DeepL – среди переводчиков его уважают больше всего (и я сам использую в переводческой работе именно его). А по архитектуре это старая добрая свёрточная нейронная сеть, а не новомодный трансформер.
И напоследок самое важное. Приведённый анализ ни в коем случае не означает, что "Шедеврум" лучше Gemini. Мало того, что это субъективный анализ цифрового художника – так это ещё и тестирование моделей на нестандартной и нетипичной для них задаче. Это та область, где ИИ регулярно "проваливается" – просто разные модели делают это по-разному.
Это было не глобальное сравнение моделей – а скорее сравнение их слабых мест в художественном стресс-тесте. Его люди-то не все выдерживают, что тут говорить про ИИ! Какие решения лучше использовать? Это зависит от вашей задачи, а не от оценки на Хабре. Какой бы ИИ вы не взяли себе в помощники – думать всё равно придётся своей головой.