Про Kandinsky 2.1
Начало положено.
Как человек связавший свою жизнь с искусством, и шесть лет проработав за холстом реальным, прежде чем перейти к виртуальному, мне было интересно понять как искусственный интеллект может соперничать с креативным мышлением человека.
Информационный шум и паника вокруг этой темы еще больше нагнетали и даже будоражили сознание. Ожидалось, что картинка меня поразит и заставит почувствовать себя никчемным созданием в своей нише.
Очень мне хотелось, чтобы меня удивили, чтобы я с таким же таинственным взглядом как Вилли Вонка перестала быть скептиком и уверовала.
Но уже после первой пробы мне стало ясно, что волшебной палочки не существует и «не так страшен чёрт, как его малюют». Простые запросы выдавали банальные сюжеты или, в буквальном смысле, визуальный мусор.
Я стала усложнять запросы и давать более точное описание, но с каждым разом становилось словно хуже. Хоть и более конкретные и неважно на русском или английском, они не давали желаемого результата и на каких-то моментах сюжеты заносило откровенно не туда. Все это омрачилось артефактами в виде вторых челюстей или ног растущих из ног персонажа. Смазанные планы, отсутствие базовой анатомии, стеклянные расфокусированные взгляды и каменные лица, статичные позы и очень скудная композиция.
В моих экспериментах было сложно выдавить хоть какие-то эмоции у персонажа. И после многочисленных попыток я ментально устала играть в эту рулетку.
Откровенно говоря, стало легче, появилось понимание, что это инструмент, а не соперник и придется затратить немало усилий для формирования запроса, а далее постобработки, чтобы воплотить свою задумку.
Довольно интересные проскальзывали интерпретации совершенно сумбурных, абсурдных заданий. Но это уже сугубо для развлечения. Там же можно поиграть со стилем, которых порядка двадцати.
Интеллект неплох в профессии, когда нужно скинуть на кого-то рутину. Когда ты уже достаточно ценишь себя и время, чтобы рисовать логотип для строй-треста №5.
Мне понравилось, как подошли к вопросу в одном похоронном агентстве: ChatGPT пишет эпитафии за родственников, а Midjourney меняет фоны и генерирует одежду в стиле професси усопшего - для строителя роба, киянка и каска, для повара колпак и передник. Для потоковых работ - это отличное решение, чтобы экономить свой личный ресурс.
На данном этапе в творческой сфере, мы обслуживаем нейросеть, а не она нас. Конечно, все может измениться, и предполагаю, что в будущем нам придется бороться за авторское право не между собой, а с машиной. Но пока ей нужно “поднабраться опыта”.
Также проскользнула интересная информация в моей новостной ленте запрещеннограма по этой теме - предлагалось купить курс по грамотному построению задач для ИИ, а почему бы и нет? Строить диалог и повышать эффективность, чтобы завтра ты все еще продолжал держать все под контролем.
* Все это является моим субъективным мнением на основании тестирования Kandinsky 2.1
Комментарии (21)
sshikov
15.04.2023 08:27+5Слушайте, но вот эти картинки — они же ужасны. Причем ужасны как эстетически (ну ок, это субъективное мое мнение, можно не согласиться), так и технически (в частности, даже я, не будучи профессионалом, вижу явные ляпы в анатомии (три ряда зубов же), вижу очень странную перспективу, точнее ее отсутствие, и многие другие странности). Ну какой нафиг конкурент? На сегодня — точно нет.
engine9
15.04.2023 08:27+7Моё мнение, что эта нейросеть Кандинский неудачная или старая, stablediffusion выдаёт намного более эстетичные результаты, почти без склонности к нагромождению деталей.
sshikov
15.04.2023 08:27+1Ну, да, это получше (хотя и сильно попроще, скорее всего). Но все равно некоторые артефакты бросаются в глаза. Скажем, тени на шаре какие-то странные, как будто он изломан, шар вроде лежит на песке, но песок не проминается, ну и так еще по мелочи…
В общем, я согласен с автором, что как инструмент это было бы интересно (в качестве платина к рисовалке, например), а как самостоятельный автор по описанию — пока что не сегодня.
Меня в последнее время удивляет число тех, кто восхищается результатами ИИ в разработке софта, при том что все что я пробую — вообще не тянет на результат. То есть, скажем, попросил я вчера OpenAssistant написать код на скале, он мне выдал кое-что похожее на правду, но недостаточно общее — то есть, частную задачу оно почти решило (но неправильно). Попросил обобщить — и понеслось… такое, что ни в сказке сказать, ни пером описать. Ну вот допустим, что в моих вопросах навело его на мысль, что я просил код на питоне? Я даже слова такого не упоминал, почему в третьем или четвертом ответе код пошел питоновский? Или, зачем оно решило в мою задачу притащить Spark ML или MLlib, в то время как задача никакого обучения не предполагала?
Это в литературной фантастике так можно, а с кодом так вольно обращаться нельзя.
PuerteMuerte
15.04.2023 08:27+2Ну, да, это получше (хотя и сильно попроще, скорее всего). Но все равно некоторые артефакты бросаются в глаза.
Ну скажем так, это уже даже в таком виде заменяет огромный пласт ручной работы всякого рода художников-оформителей, рекламщиков, а также отбирает клиентуру у фотобанков.
Кроме того, есть одна общая проблема у критики нейросетей: эту самую критику делают профессиональные художники/фотографы. Те самые ребята, которые и друг друга ранее готовы были съесть. Вот тут композиция неверная, вот тут цвета плохо подобраны, вот тут непонятно, что автор хотел сказать, и вообще горизонт завален.
Но потребителем сего продукта будут-то не художники/фотографы, а казуальный пользователь. А у него чувство прекрасного намного менее обострённое, и соответственно, и контент от нейросети намного чаще будет для его задач вполне пригодным. А с учётом стоимости и быстроты получения — вообще идеальным.sshikov
15.04.2023 08:27+3заменяет огромный пласт ручной работы
Ну да, при некоторых условиях (если анатомически или с перспективой налажать — то переделывать/доделывать за ним будет сложнее, чем с нуля сделать. А цель все-таки сократить сроки и расходы.
engine9
15.04.2023 08:27+1Еще есть эффект прайминга, например ребята-трехмерщики иногда прикалываются и присылают реальные фотографии под видом рендера и тридешники находят множество проблем с "нереалистичными текстурами", "с плохой сеткой" и т.п. :)
sshikov
15.04.2023 08:27+1Ну, тут кажется все же другой случай. Вот возьмите зебру выше, и сравните ее скажем с… не, не с фоткой. Сравните с рисунком зебры Марти из мультиков про Мадагаскар. Разница между профессиональным художником и произведением нейросети в этом случае таки видна прекрасно. И видна на мой взгляд не только лишь профессионалу.
PuerteMuerte
15.04.2023 08:27+1Разница между профессиональным художником и произведением нейросети в этом случае таки видна прекрасно.
Неа, не видна. Вообще не видна. Можно сидеть и придираться к расположению полосок на зебре, но с другой стороны, может, то авторский стиль такой. В любом случае, если бы мне для иллюстрации чего-либо нужна была бы рисованная зебра, этот рисунок рассматривался бы абсолютно равноценно с "человеческими".
Alexey2005
15.04.2023 08:27Точно видна?
sshikov
15.04.2023 08:27Я говорил про конкретный рисунок. Там видно. Про все рисунки зебр, сделанные всеми нейросетями конечно утверждать не буду. Ваши два примера — вполне приличные "мультяшные" зебры.
ElVibrio
15.04.2023 08:27+7Да ладно.
ЧукчаИИ не художник, ИИ пейсатель. Создавали по сути аналог не мозга, а его куска - зон распознавания и воспроизведения речи Вернике и Брока. Учили на электронных двойниках живых образов. Получили поведенческие девиации.Подумаешь, глаза с бельмами и расфокусировкой осей зрения, четвероногие голуби и дополнительные челюсти чужого.
Это ещё нет достоверных сообщений, с какими галлюцинаторными искажениями имеют сталкиваться
психиатрыинженеры и разработчики этих систем.
higin
15.04.2023 08:27+2После длительного просмотра таких изображений возникает пред-депрессивное состояние. Быстрее бы уже наигрались с этим, или сети усовершенствовались до приемлемого уровня. Честное слово, суют "нейронку" во все щели и дыры- надоело...
SergeyMax
15.04.2023 08:27После длительного просмотра таких изображений возникает пред-депрессивное состояние
Вы художник? Разве четырехногие голуби - это не прикольно? Обычные надоели уже.
avdosev
15.04.2023 08:27+5Мне кажется, что статья не имеет особой актуальности, да тема нейронок у всех на слуху, но проблема в том, что нейросеть сбера (как и шедеврум яндекса) не на гребне прогресса, потестируйте StableDiffusion или MidJourney. Вот над ними создатели постарались. И мнение о них интересно.
Fedorkov
15.04.2023 08:27+2Дело не в искусственной нейронке, а в естественной.
Ни разу не художник, сделал за полчаса изучения промптов из интернета.
Fedorkov
15.04.2023 08:27Потратил ещё полчаса, понастраивал модель Realistic Vision, которая даёт более реалистичные портреты.
Hidden text
axe_chita
15.04.2023 08:27По большому счету, нейросети сейчас это калейдоскоп, который случайным образом собирает кусочки следуя фильтру отбора. Но у этого нейрокалейдоскопа нет ни памяти, ни положительной связи, и он не накапливает опыт — "это получилось хорошо, это правильно, эти связи надо закрепить".
К примеру по запросу "прекрасная нагая девушка с распущенными светлыми волосами, купается в реке, вдали за ней в реке стоит рыжий конь, гиперреализм", пришлось выполнить не один десяток генераций (среди результатов было несколько вариаций на купание Ксюши в естественной среде), прежде чем получилось что то удобоваримое.Нюнейроконтент ахеад
hostbest
15.04.2023 08:27Адскую нечисть нарисовала эта Kandinsky 2.1. Нафига я это увидел вообще, брр?! Предупреждать надо!
PuerteMuerte
15.04.2023 08:27Можно подумать, нейросетка живого Кандинского выдавала более щадящий результат :)
vassabi
"запрещеннограма" (от запрещеннобука) - это пять!
(мда ... вот так и живем в техноутопии, чтобы бы об этом думали предки если бы узнали ...)