Привет, Хабр! Я – Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я ставлю эксперименты над ИИ, пока у них нет возможности “дать сдачи” человеку. Если серьёзно, то проверим гипотезу, может ли нейросеть, генерирующая изображения, иметь собственный “авторский стиль”.
Внутри каждой из txt-2-img нейросетей есть модель, обученная на своем датасете. Если модель удачная, то и генерации будут получаться качественными, красивыми, соответствующими запросу. Разумеется, посмотреть, что представляет из себя модель, на каком датасете она обучена, не получится – это коммерческая тайна любого из продуктов, о которых я буду писать ниже.
И всё-таки, попробуем определить, где лучше генерировать изображения, хотя бы по факторам красоты/соответствия запросу.
Будем исходить из того, что в каждом из продуктов, который участвует в наших экспериментах, есть большие или меньшие веса для определённых изображений. То есть она предрасположена выдавать в результатах генераций следы тех изображений, которых или больше в датасете или которые имеют больший вес. Лучше всего эту предрасположенность называть ёмким английским словом “bias”. Это можно сравнить с “авторским стилем” художника, хотя, конечно, ИИ недоступно понимание стиля, это человеческая интерпретация.
Проведём два эксперимента, попробуем найти bias, который добавляется к каждому вашему запросу, желаете вы того или нет.
В обоих экспериментах мы сравним результаты одинаковых запросов из разных продуктов. Всего будет по 4 генерации, никаких изменений между ними нет.
В Midjourney и Designer от Bing (на базе DALL-E 3) мы будем вводить текст запроса на английском, в Lumenor.ai и Шедеврум от Яндекса – на русском. Для Midjourney используется v.6 –s 50, для Lumenor – style RAW. DALL-E 3 и Шедеврум не дают точных настроек.
Эксперимент 1
Задаём максимально нейтральные токены. То, что можно попросить любого человека нарисовать на бумаге карандашом, и это займёт не много времени (в конце концов, ладонь можно и обвести).
Эксперимент 2
Пробуем запутать ИИ, отправляя нестандартный запрос. Если попросить сделать то же самое человека, он без труда вас поймёт. В отличии от ИИ, как мы убедимся, посмотрев на результаты. Но мы оцениваем сейчас стиль изображений.
Можно ли сказать, что у нейросетевых художников есть “свой стиль”?
Каждая из четырёх рассмотренных нейросетей – Midjourney, Designer от Bing (на базе DALL-E 3), Lumenor.ai и Шедеврум от Яндекса – обладает своим подходом к генерации изображений. Этот "стиль" проявляется через детализированность изображений и через предпочтения к определённым цветовым схемам, что позволяет говорить о наличии некоего "авторского стиля" у ИИ.
Midjourney и Lumenor особенно выделяются своей склонностью к созданию изображений с выраженным bias, что влияет на детализацию и цветовые схемы. В то время как генерации от Bing и Шедеврума менее подвержены этим предвзятостям, хотя их всё же можно отличить по некоторым характеристикам.
Сейчас мы становимся свидетелями гонки между различными txt-2-img продуктами за внимание пользователей, переходя от этапа соревнования за создание наиболее реалистичных изображений к новому этапу. Продукты стремятся не просто к реализму, но и к эстетической привлекательности в своих генерациях, корректируя свои модели для достижения более красивых результатов.
Как вы думаете, может ли bias ИИ-художника считаться настоящим художественным стилем, сравнимым с человеческим творчеством? Напишите в комментариях.
Комментарии (2)
MasterOgon
04.04.2024 08:51Скорее наверное подчерк потому что стиль это намного более узкое понятие как кубизм, реализм и тд. Я в совершенно разных стилях рисовал и у меня есть свой стиль но весь арт объединяет что то общее
Pfinash
Интересный эксперимент. Вот что выдавал Гигачат от Сбера: