Disclaimer: Эта публикация написана только с целью исследования нейросети MidJourney применительно к философским вопросам. Автор -- убежденный космополит и призывает не рассматривать всерьез результаты нейросетевой генерации. Следует помнить, что получаемые изображения -- это просто отражения стереотипов в исходных данных.
Я думаю почти каждый из хабра-читателей видел сообщения о новых генеративных моделях: DALLE-2, MidJourney и Stable Diffusion. Благодаря высокому качеству генерируемых изображений и способности моделей к созданию комбинаций различных объектов -- сегодня эти модели находятся в верхней строчке наиболее обсуждаемых тем в области Искусственного Интеллекта. Интересно попробовать их в деле!
Генерация простых комбинаций в стиле "Ехали медведи на велосипеде, а за ними кот, задом-наперед" быстро наскучивает. У меня возникла идея визуализировать набор абстрактных сущностей которые не имеют физического воплощения в нашем мире. Это должно быть какое-то абстрактное понятие, но имеющее большое число возможных вариаций. Причем желательно, чтобы при взгляде на изображение можно было хотя-бы на уровне личных субьективных ощущений понять -- "то или не то".
К сожалению, в топе новостей не только Искусственный Интеллект. Поскольку пробудился Ктулху вопросы "национального духа" вышли из области экзамена по философии и начали определять наши будни, я решил взять его за отправную точку.
Я воспользовался нейросетью Midjourney. Во-первых по-причине того, что у меня был к ней безлимитный доступ. Во-вторых, она на удивление хороша для визуализации абстрактных понятий (в то время как DALLE-2 и Stable Diffusion превосходят, по моему опыту, в четкости генерации конкретных объектов) Чтобы ... эмм, вызвать "национальный дух" ????я вводил запросы вида: The spirit of <country> и название страны. Также я использовал запрос The national spirit of <country>. Разница между запросами, на мой взгляд была достаточно незначительная, однако в случае первого запроса нейросеть чаще воспринимала дух в виде конкретной фигуры в центре композиции. Практически всегда генерация была завязана на цвета национального флага, и на наиболее узнаваемые визуальные ориентиры стран. Тем не менее, результаты, на мой взгляд получились весьма интересными.
Что-ж, пристегните ремни, поехали!
-
Начнем с духа России:
Можно заметить, что в композицию органически вплетены старые соборы со сталинскими высотками, и все это покрашено в красный цвет. Чаще всего на сталинский ампир нейросеть пришпиливает сверху купола собора. Что-ж, оставим на усмотрение читателя интерпретации этих наблюдений в свете сегодняшней общественной жизни России.
Дух Германии проявил себя также в виде цветов национального флага (только на первой почему-то Бразилии?) , и несколько схожих по архитектурному ансамблю зданий. Тем не менее, изображения 3 и 4 весьма интересны на мой неприхотливый художественный вкус. На изображении 3 угадываются мотивы Германской Империи
Дух Австрии проявил себя более разнообразно. Здесь мы видим неустановленную девушку (вероятно, это персонаж какой-то Австрийской легенды) и несколько архитектурных ансамблей органично вплетенных в горный пейзаж.
Дух Казахстана -- тут все более менее понятно. Также сеть уловила доминирующий пейзаж и цвета национального флага. Но интересно, что на изображении 3 есть полумесяц, которого нет на национальном флаге этой страны. Нейросеть сама пришла к выводу, что раз страна с доминирующей религией Ислам, то полумесяц должен присутствовать. Интересна также гора, на картине номер 1 и 2. Насколько мне известно в Казахской мифологии нет основополагающего мифа о горе (например, в Корее он есть и связан с потухшим вулканом Пэктусан). Возможно, это вольная нейросетевая интерпретация мифа о птице Самрук с гнездом на вершине дерева жизни?
Дух Украины проявляет себя в виде, на мой взгляд очень красивых изображений с явной фиксацией на цвета национального флага и доминирующие архитектурные мотивы. На 3-х из 4-х изображениях мы видим ее персонифицированное проявление в виде фигуры в центре композиции. Особняком стоит изображение 4. Здесь мы видим, по всей видимости отражение печальных исторических событий 2014 года.
Дух Великобритании -- красиво, величественно. Сильный фокус на переплетение (что неудивительно, Великобритания -- это союзное королевство) и на 3-х из 4-х изображениях мы видим морскую тематику. На мой субъективный взгляд, номер 3 -- это практически идеальное попадание.
А вот Дух Китая оказался неразрывно связан с действующим в стране политическим режимом. Тут практически не угадывается национальный символизм, зато хорошо видны знакомые коммунистические мотивы. Разве что на изображении 4 мы видим фрагменты традиционной китайской архитектуры.
Дух Соединенных штатов наотрез отказался проявляться. Подавляющее большинство генерируемых изображений представляли из себя небольшую вариацию национального флага. После нескольких запусков я все-таки смог получить более интересную картину. Здесь, опять же мы видим сильную вариацию на тему национального флага, но, например, на изображении 1 можно увидеть еще и пустынную местность, неуловимо напоминающую типичный пейзаж некоторых штатов США. На изображениях 3 и 4 мы видим некоторые мотивы современной городской застройки с небоскрёбами.
Интересно посмотреть на духов КНДР и Южной Кореи. Поскольку разделение данных государств является исключительно политическим конструктом, в основе национальной культуры по идее должно лежать много общего. Проверим это!
Что тут можно сказать, как и в случае Китая, видны не национальные а политические мотивы. На первом изображении четко выделяется фреска времен соцреализма. На двух других вариации на тему какого-то флага (весьма и весьма отдаленно напоминающего флаг КНДР). На четвертом изображении мы отчетливо видим пожалуй лучшую персонификацию духа КНДР (нет, вы подумали неправильно, Кимов ни на одном изображении отыскать не удалось).
Что еще интересно в случае КНДР. По непонятным причинам нейросеть устойчиво пытается отрисовать на флаге красный круг на белом фоне, который является символом Японии. Вы можете видеть это на изображении номер 3.
...и буквальный флаг Японии на изображении 2 еще одного варианта. К чему бы это?
Теперь переходим к Южной Корее. Здесь мы видим стилизацию на тему национального флага, типичного горного пейзажа. Коммунистических мотивов понятно нет, но еще и полностью отсутствует персонификация. Ни одного персонажа в кадре. Для контроля сделаем еще одну генерацию.
Выводы
Разумеется, никаких национальных духов не существует. Это всего лишь человеческие стереотипы, к которым мы привыкли. И нейронные сети, анализируя весь массив информации созданной, в первую очередь людьми, просто следуют этим же стереотипам. Тем не менее, смотря на эти изображения, сложно отделаться от впечатления что нейросеть достигла уровня художника с достаточно большим кругозором.
Комментарии (53)
koresh_builder
25.08.2022 23:07+8На картинках духа Австрии, крайне вероятно, что неопознанная девушка - Елизавета Баварская, принцесса "Сисси", любимая в народе. https://ru.wikipedia.org/wiki/Елизавета_Баварская_(императрица_Австрии)
shellenberg Автор
25.08.2022 23:08Да, разумеется, я здесь протупил. Это скорее всего она.
sebres
26.08.2022 19:44Конечно же Sissi, кто-же еще...
В традиционном, восточном (китайском?) свадебном платье :)
Al_Pollitruk
26.08.2022 11:19Вроде бы похожа - "1854 Sissi wearing an evening dress"
https://img-fotki.yandex.ru/get/58675/405846350.39/0_180faa_a7ab2e33_orig.jpg
ZlodeiBaal
25.08.2022 23:28+11Потыкал с аналогичным запросом в DALL-e второй. И там все скучно. У Украины флаги на общественно значимых местах, у России собор Василия блаженного. Зато нашел более интересный и абстрактный запрос. «The future of ...». И тут Остапа понесло:
USA:
Ukraine:
Russia:
Germany:Alexey2005
26.08.2022 02:23+3И там все скучно. У Украины флаги на общественно значимых местах, у России собор Василия блаженного.
Модификаторы стилякардинально меняют картину
RomeoGolf
26.08.2022 07:22У меня стойкое чувство, что на первой картинке блока Russia барышня жестом демонстрирует эйфелевой башне свое отрицательное отношение.
Кстати, в статье на одной из китайских картинок на месте портрета председателя просматривается то ли пес, то ли лис. К чему бы это?..
Deosis
26.08.2022 07:33+14Похоже, сеть несколько буквально восприняла фразу: дети - это будущее.
Флаг Украины поверх Германии - это сильно. Сеть что-то знает.
Didimus
26.08.2022 11:23Что у неё с лицом?
ElenJun
26.08.2022 21:57Все лица, мягко говоря, странные))) особенно американские))
shellenberg Автор
26.08.2022 22:30Это известная проблема нейросетевых генераторов. Во-первых, у лиц большая вариативность. Во-вторых наша внутренняя нейросеть хорошо на них натренирована. Если мы можем не заметить погрешности где-нибудь во второстепенных деталях, то проблемы с генерацией лиц сразу заметны.
vonabarak
25.08.2022 23:40+5Реквестирую больше картинок для сравнения.
Дух Беларуси, Польши, Сербии, Армении, Грузии, Франции, Турции. Исчезнувших государств: СССР, Югославии, Римской Империи, Золотой Орды. Никогда не существовавших: Ваканды, Неверленда, Нарнии. Частично признанных (просто интересно, знает ли нейросеть, что у них есть флаг). Дух чего-нибудь негосударственного (дух коммунизма/капитализма, дух добра/зла) тоже не помешал бы.DS28
26.08.2022 03:00+2Я проверял вообще на выдуманных, типа "Kurchakian" или "Citizen of Kurchak". Генерит успешно. Красивые, интересные, местами как из фантастического романа.
Зайдите на https://www.midjourney.com/ - там очень просто получить доступ и в discord генерить что интересно...
Maccimo
26.08.2022 13:25+2Никогда не существовавших
В списке обязательно должна быть Кракожия
Дух чего-нибудь негосударственного
А здесь, конечно же, Хабрахабр.
phenik
26.08.2022 04:21Что еще интересно в случае КНДР. По непонятным причинам нейросеть устойчиво пытается отрисовать на флаге красный круг на белом фоне, который является символом Японии.
Возможно как-то связано с памятью о японской оккупаций, там вообще сложные исторические отношения и конкуренция. КНДР до сих пор периодически запускают ракета в направлении Японии)
Спасибо за интересное исследование, а не козла на велосипеде)
Интересно было-бы посмотреть дух Кубы и Бразилии.
Скоро появятся статьи на тему исследований психологии и патопсихологии ИИ, кот. на самом деле будут о людях, но в новом ракурсе.007913
26.08.2022 14:42Почему-то ваш пост вызвал ассоциации с книжной вселенной "Основание" и психоисторией, кто знает может в будущем нейросети будут интегрировать весь массив человеческой истории и социальной информации чтобы создавать образы трудно представляемого для нас и использоваться для прогнозов развития
panzerfaust
26.08.2022 06:43+6Свежо смотрится только Южная Корея, а все остальное эксплуатирует одну и ту же идею: человечек, шпили, облака, флаг. Собственно, без флага в большинстве случаев непонятно, о чем речь. "Германия" и "Россия" не отличимы. "Украинские" картинки навевают какие-то тоталитарные идеи, что прямо противоположно историческому бэкграунду. Как "Казахстан" умудрился потерять своего степного орла с флага - вообще загадка.
Пока больше похоже на трюк старика Хоттабыча с часами из чистого золота. Выглядит-то классно, а искры творчества не завезли.
agat000
26.08.2022 07:21+2Думаю, нейросеть ищет исходные данные картинками по запросу "страна". Гугл выдает целую портянку с флагами для одних стран и флаги + достопримечательности для других. С этим и работает. Только отбрасывает по фильтру фото городов и людей.
Immortal_Doge
26.08.2022 10:47Полностью согласен с автором, что "национальный дух" - это всего лишь человеческие стереотипы. Тем не менее хоть нейросеть и эксплуатирует всем известные паттерны, мне очень понравилось, что она создала. Это выглядит красиво, необычно, даже стильно. Для меня, как не слишком искушённого искусством человека, это нечто свежее и интересное.
Автору большой респект за статью - очень рад, что наткнулся на неё и познакомился с возможностями ИИ.
forca_barca
26.08.2022 10:47+1По поводу Казахстанского духа - Гора. Видимо имелось в виду Гора Хан-Тенгри. На востоке страны Почиталась эта гора. Так можно сказать от нее пошло слово Тенгрианство.
Mehtoc
26.08.2022 10:47+2Номер 2 и 4 по Китаю очень, очень напоминают китайское посольство в каком-то несуществующем большом городе из моего сна. И я так же, как нейросеть, не имею понятия, откуда эти образы в моей голове.
vassabi
26.08.2022 14:06-5я лично надеюсь - что это первая и последняя такая статья на хабре.
ИМХО - так же как интереснее играть самому, чем смотреть на чужое прохождение игры - так же интереснее генерировать картинки самому, чем смотреть на чьи-то чужие.
PS: с гораздо бОльшим нетерпением жду статей типа "как получить свои веса и запустить MidJourney\DALLE-2\проч на google colab" !
vassabi
26.08.2022 15:42-1PS: .... а что, только мне интересно узнать "как написать свой hello world ?" (и совершенно неинтересно читать статью типа "посмотрите как выглядит мой hello world в консоли!")
Neikist
26.08.2022 17:44+1Тут есть нюанс. Интересные запросы к сеточке не каждому в голову придут. За этим в статью и заходят эту.
Un_ka
26.08.2022 16:16+3как получить свои веса и запустить MidJourney\DALLE-2\проч на google cocolabР
Разве для запуска этих нейросетей не требуется десятки и сотни гигабайт оперативной памяти и несколько видеокарт вдобавок к мощному серверному процессору?
diogen4212
26.08.2022 18:16Поставил себе на комп Stable Diffusion по этому гайду, для изображения 512 пикселей нужно 10 Гб видеопамяти и размер изображения должен быть кратен 32, как я понял, для запуска использую батник SD HighRam RunStableDiffusion.bat, который подготовил автор ролика. В целом ничего сложного, вопрос в придумывании запросов и наличии современной видеокарты Nvidia.
averkij
26.08.2022 16:09На этой неделе в открытый доступ вышли веса StableDiffusion, они есть на huggingface. Можно играть, запускать в colab'е, подавать на вход картинку как подсказку вместе с текстом, — вот тут есть пример.
DirectX
27.08.2022 23:14Кому интересно поиграться с сеткой самостоятельно, сделал бота для Stable Diffusion. Чисто для ознакомления, просто на 3090 TI без гарантий относительно хабраэффекта: http://t.me/stablediffusiongeneratorbot
Кто хочет, может самостоятельно запустить такой же: https://github.com/DirectX/stablediffusion-telegram-botshellenberg Автор
28.08.2022 00:18Это все таки другая сетка. Она скорее по качеству генерации ближе к DALLE-2, изображения более конкретные и четкие но менее, как бы это сказать, стилистические.
Ogoun
26.08.2022 16:43+1Погонял локально Stable-diffusion на промте:
!dream Spirit of <country>, dramatic lighting, hyper detailed, extremely complex, hyper realistic, insanely detailed and intricate
Russia
Ukraine
Germany
USA
В составлении запросов опыта маловато, но какие-то детали прослеживаются. Интересно что флаги только для США так явно проставил.
Diamon33
26.08.2022 20:03+2!dream Spirit of Habrahabr, dramatic lighting, hyper detailed, extremely complex, hyper realistic, insanely detailed and intricate
#1
#2
#3
#4
Ogoun
27.08.2022 11:30По виду явно больше 512x512, как генерили? У меня на 3090 при попытке генерации выше размерностью жалуется на нехватку видеопамяти.
qdb
28.08.2022 11:19на востоке казахстана же горы, и около алматы, это популярные туристические места, там и горнолыжки, кажется, есть. это я написал только из памяти, не проверял.
NeoCode
А что нужно сделать, чтобы самому попробовать погенерировать такие картинки?
shellenberg Автор
Зарегистрироваться, тогда у Вас будет примерно 20 бесплатных изображений. Дальше 30$ в месяц для (почти) безлимита.
RigidStyle
Почему "почти"? Пишут же просто "безлимит".
xshd
безлимит в режиме relax (т.е. придется подождать своей очередь, иногда долго), а так по 0.1 gpu за превью/апскейл
daniilshat
У нейросети есть сервер в Discord. Можно добавиться, перейти в канал для новичков и задавать запросы. Это не совсем удобно. В канале много людей, все пишут свои запросы и получают результаты. Очень легко потеряться. Удобнее всего создать свой приватный сервер и добавить бота. Как выше сказали, при регистрации дают 25 изображений бесплатно.
Neikist
А без дискорда оно работает? Или гвоздями приколотили?
daniilshat
На сайте формы для запросов нет, а все ссылки на демо ведут на Discord
Javian
Как поиграть с нейросетью Midjourney и создать произведения искусства за секунды
Дополнительно можете в запросе использовать такие фразы чтобы поменять стиль: "pencil sketch" или "in the style of Picasso"
Для "попробовать" может хватить регистрации на нескольких email