Мое знакомство с диффузионными нейросетями началось недавно. Вообще я режиссер-документалист и сейчас снимаю фильм о музыке коренных народах Сибири.

Промт: Ким Чен Ын ловит волка
Промт: Ким Чен Ын ловит волка

Обычно, после съемок в фильме остаются огромные пробелы, которые по традиции закрываются архивными фото и видео. Но, когда на дворе век AI революции, а картинки в нейросетях рисуют даже домохозяйки, появилась идея воспользоваться возможностями машинного обучения и сгенерировать для фильма множество коренного Сибирского арта.

Однако, не все так просто. Перепробовав множество популярных сервисов, все как один вместо Алтайцев, Хакасов или Тувинцев рисовали что-то среднее между Индейцем и Монголом. Поэтому я плавно стал осваивать Stable Diffusion, в надежде когда-то создать и обучить свою модель по нужной мне тематике.

И тут выходит Kandinsky 2.1. Услышав о нем, первый делом попробовал запрос "Тувинский музыкант" и о чудо, результат получился наиболее аутентичным из всех.

Слева то, как видит "Тувинского музыканта" Midjourney, а справа - Kandinsky 2.1
Слева то, как видит "Тувинского музыканта" Midjourney, а справа - Kandinsky 2.1

Результат логичен, Midjourney обучался по западному интернету, где о наших коренных народах и не слышали, а Кандинский уже по нашему родному рунету. На этом можно было бы завершать статью, но дальше начались эксперименты.

Промт: Чело-медведо-волк-тигр-лев-орел-воин-доспехи-африка-снег (стиль "Цифровая живопись")
Промт: Чело-медведо-волк-тигр-лев-орел-воин-доспехи-африка-снег (стиль "Цифровая живопись")

Было множество различных обыденных генераций, не заслуживающих внимания. Пока не пришла мысль: «Кандинский лучше понимает нашу культуру. А насколько глубоко он может ее понять, прочувствовать закутки русской души. И как это будет выглядеть в сравнении с другими нейросетями?»

Дальше статья не имеет особой практической или художественной ценности, потому-что, думая о проявлениях той самой русской души, на ум пришли только мемы с волками. И понеслось.

Промт: Лучше иметь друга, чем друг друга, волк, классицизм.  Слева Kandinsky 2.1, справа Midjourney.
Промт: Лучше иметь друга, чем друг друга, волк, классицизм. Слева Kandinsky 2.1, справа Midjourney.

На первый взгляд может показаться, что кривыми промтами я просто решил поиздеваться над Кандинским. Однако, взглянем на детали.

Что хотел сказать этой фразой автор? То, что быть друзьями это лучше чем быть просто знакомыми? Или...кхм.

Посмотрите на лицо волка слева - сразу читается эта таинственная улыбка. Этот хитрый взгляд. Эта недосказанность в действии. Кандинский четко передал ту самую "или", оставив замысловатую недосказанность автора. В отличие от более сдержанного и однозначного Midjourney.

 Промт: Я может и не может, но хотя бы не я, волк. Слева Kandinsky 2.1, справа Midjourney.
Промт: Я может и не может, но хотя бы не я, волк. Слева Kandinsky 2.1, справа Midjourney.

Вопросы о том, кто мы в этом мире, для чего мы созданы и какова наша цель, мучают нас непрерывно. Обращаясь к классике русской литературы, ее «вечные темы» зачастую выражались через поиск «героя времени». И у каждой эпохи, у каждого писателя был свой герой - Печорин, Онегин, Обломов, Раскольников, Шариков и многие другие. Все очень разные, непохожие друг на друга, что только доказывает нашу многогранность и стремление найти себя.

Теперь взгляните на результаты генерации. Midjourney - это спокойный, сдержанный волк, немного надменный, где-то слишком уверенный в себе.

А генерация Kandinsky? Она прямо в точку передает наше внутреннее беспокойство, наше метание между противоположностями. Эти эмоции прямо говорят: я здесь ищу гармонии, слияния с бесконечно вечным, но нахожу лишь Шекспировское "Быть или не быть".

 Промт: Эту сумку мне волк купил, очки с бриллиантами волк купил. Инставолк Слева Kandinsky 2.1, справа Midjourney.
Промт: Эту сумку мне волк купил, очки с бриллиантами волк купил. Инставолк Слева Kandinsky 2.1, справа Midjourney.

Последняя генерация, наверное, самая простая к осмыслению и говорит о нашей наивности. Потеряв тягу к поиску себя, к развитию своей духовности - мы примеряем на себя чуждые идеалы. Окружаем вещами, которые нужны лишь для насыщения своей гордыни. И как чутко подметили это нейросети: пока одно полушарие Земли производит бренды и внушает нам мнимую необходимость, другое их бездумно поглощает.

Разработчики Сбера хорошо потрудились над Кандинским, сделав его нейросетью с душой, характером и особым взглядом. Конечно, без огрехов не обошлось, однако, его быстродействие, интуитивно понятный интерфейс и возможность генерации на разных языках в скором времени сделают нейросети по-настоящему массовым продуктов для каждого.

В конце концов, Kandinsky 2.1 шикарный генератор будущих мемов.

Разные запросы с Илоном Маском, Ким Чен Ыном и львами в цирке.
Разные запросы с Илоном Маском, Ким Чен Ыном и львами в цирке.

Комментарии (6)


  1. BugM
    09.04.2023 20:50
    +12

    Горшочек, не вари!


  1. csharpreader
    09.04.2023 20:50
    +19

    возможность генерации на разных языках

    После множества итераций с Кандинским, у меня возникло подозрение, что он всё же сначала переводит запрос in English, а потом отправляет его в адрес Midjourney выдаёт результат.

    Например, слово «девушка» стабильно и часто конвертится в изображение маленькой девочки, будто под капотом идёт перевод в слово «girl», что потом, в свою очередь, даёт девочку на картинке. Чтобы получить взрослую девушку лучше просить его нарисовать «молодую женщину». Та же история со словом «парень/boy», etc.

    Генерация по запросу «Девушка сидит на стуле и улыбается»
    Генерация по запросу «Девушка сидит на стуле и улыбается»


  1. IgorRJ
    09.04.2023 20:50
    +3

    Картинка Ким Чен Ына натолкнула на мысль: а не проверить ли Кандинского на "политоту".

    Попросил нарисовать Кима в положительном ключе. И так его (Кандинского) упрашивал, и эдак. Нет, всегда получается карикатура, образ если не злобный, то, по меньшей мере, неприятный.

    Вывод: пользуясь Кандинским и иже с ними, не забывайте, что это, воленс-ноленс, орудия пропаганды. Что бы это ни значило...

    ПыСЫ Если что, я вовсе не политозабочен, просто картинка в статье навеяла.


    1. vboturov Автор
      09.04.2023 20:50

      В целом, как мне показалось, у Кадинского есть некоторые проблемы с генерациями реальных людей, особенно в фотореалистичных стилях (но думаю это даже неплохо, т.к. фейки вовсе нехорошо)

      А что касается карикатурности политиков - вбил всех кто на слуху, наших рисует величественно, а зарубежные все как один с изъянами.


      1. IgorRJ
        09.04.2023 20:50

        Наших не пробовал, а вот дедушка Джо получался прям-таки милашка.

        Но Ваше замечание, в принципе, подтверждает моё мнение о политангажированности художника.

        И снова ПыСы: вообще-то Ким в некоторой степени "наш", однако вместо величественности духа Кандинский ему пририсовывает, в основном, величину телес.


  1. staryfizkulturnik
    09.04.2023 20:50
    +2

    Брэду Питу минуснули карму на Хабре
    Брэду Питу минуснули карму на Хабре