Привет, Хабр! Я – Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я ставлю эксперименты над ИИ, пока у них нет возможности “дать  сдачи” человеку. Если серьёзно, то проверим гипотезу, может ли нейросеть, генерирующая изображения, иметь собственный “авторский стиль”.

Внутри каждой из txt-2-img нейросетей есть модель, обученная на своем датасете. Если модель удачная, то и генерации будут получаться качественными, красивыми, соответствующими запросу. Разумеется, посмотреть, что представляет из себя модель, на каком датасете она обучена, не получится – это коммерческая тайна любого из продуктов, о которых я буду писать ниже. 

И всё-таки, попробуем определить, где лучше генерировать изображения, хотя бы по факторам красоты/соответствия запросу.

Будем исходить из того, что в каждом из продуктов, который участвует в наших экспериментах, есть большие или меньшие веса для определённых изображений. То есть она предрасположена выдавать в результатах генераций следы тех изображений, которых или больше в датасете или которые имеют больший вес. Лучше всего эту предрасположенность называть ёмким английским словом “bias”. Это можно сравнить с “авторским стилем” художника, хотя, конечно, ИИ недоступно понимание стиля, это человеческая интерпретация.

Проведём два эксперимента, попробуем найти bias, который добавляется к каждому вашему запросу, желаете вы того или нет. 

В обоих экспериментах мы сравним результаты одинаковых запросов из разных продуктов. Всего будет по 4 генерации, никаких изменений между ними нет.
В Midjourney и Designer от Bing (на базе DALL-E 3) мы будем вводить текст запроса на английском, в Lumenor.ai и Шедеврум от Яндекса – на русском. Для Midjourney используется v.6 –s 50, для Lumenor – style RAW. DALL-E 3 и Шедеврум не дают точных настроек.

Эксперимент 1

Задаём максимально нейтральные токены. То, что можно попросить любого человека нарисовать на бумаге карандашом, и это займёт не много времени (в конце концов, ладонь можно и обвести).

Эксперимент 2

Пробуем запутать ИИ, отправляя нестандартный запрос. Если попросить сделать то же самое человека, он без труда вас поймёт. В отличии от ИИ, как мы убедимся, посмотрев на результаты. Но мы оцениваем сейчас стиль изображений.

Можно ли сказать, что у нейросетевых художников есть “свой стиль”?

Каждая из четырёх рассмотренных нейросетей – Midjourney, Designer от Bing (на базе DALL-E 3), Lumenor.ai и Шедеврум от Яндекса – обладает своим подходом к генерации изображений. Этот "стиль" проявляется через детализированность изображений и через предпочтения к определённым цветовым схемам, что позволяет говорить о наличии некоего "авторского стиля" у ИИ.

Midjourney и Lumenor особенно выделяются своей склонностью к созданию изображений с выраженным bias, что влияет на детализацию и цветовые схемы. В то время как генерации от Bing и Шедеврума менее подвержены этим предвзятостям, хотя их всё же можно отличить по некоторым характеристикам.

Сейчас мы становимся свидетелями гонки между различными txt-2-img продуктами за внимание пользователей, переходя от этапа соревнования за создание наиболее реалистичных изображений к новому этапу. Продукты стремятся не просто к реализму, но и к эстетической привлекательности в своих генерациях, корректируя свои модели для достижения более красивых результатов. 

Как вы думаете, может ли bias ИИ-художника считаться настоящим художественным стилем, сравнимым с человеческим творчеством? Напишите в комментариях.

Комментарии (2)


  1. Pfinash
    04.04.2024 08:51

    Интересный эксперимент. Вот что выдавал Гигачат от Сбера:

    Сферы
    Сферы
    Куьики
    Куьики
    Рука
    Рука
    Комната без слона
    Комната без слона
    семь красных линий
    семь красных линий
    Стоковое фото
    Стоковое фото
    Нарисуй себя
    Нарисуй себя
    Все что угодно
    Все что угодно


  1. MasterOgon
    04.04.2024 08:51

    Скорее наверное подчерк потому что стиль это намного более узкое понятие как кубизм, реализм и тд. Я в совершенно разных стилях рисовал и у меня есть свой стиль но весь арт объединяет что то общее