ТЛДР одной картинкой
Задача. О чём эта статья
Задача у меня довольно понятная — нужна обложка для моей SciFi книги. Есть ТЗ, есть эскиз. Нейросети с таким не справятся, так как нужна сцена из книги, образы не мейнстримные, не представленные широко в массовой, и тем более западной, культуре.
За полтора месяца поиска адекватного художника на задачу я отчаялась и смирилась с тем, что придется сгенерить обложку нейросетями, и что она будет очень отдалённо передавать суть книги.
Несмотря на то, сколько у меня возникло негативных эмоций при поиске художников, попробую очень сухо и по фактам разложить, в чем преимущества и недостатки двух подходов к моей задаче. Не исключено, что в случае с художниками мне 1. просто не повезло, 2. я не знаю, где и как искать. Если у вас есть знакомый проверенный художник, однозначно, все упрощается.
Опишу также мой опыт работы с нейросетью Kandinsky 2.2. Почему выбор пал на неё, какие у нее достоинства и недостатки, как с ней работать.
Художник vs Нейросеть
Общее
С появлением генеративных нейросетей было много возмущений со стороны художников, но, внезапно, художники же и стали если не основным, то значительным пластом потребителей этих самых нейросетей. Они заводят платные аккаунты в подобных сервисах и интегрируют их в свою работу. Помимо настоящих художников, есть еще ai-хастлеры, которые просто перепродают результаты нейросетей, заполоняя инфополе своим шумом, делая поиск нормального исполнителя очень сложным.
Время
Даже если у вас есть знакомый художник и его не надо искать, работу он будет делать долго. Если же надо искать, то это может растянуться на непредсказуемый по продолжительности срок.
Нейросеть сэкономит вам времени минимум на порядок.
Долго выполнять работу — свойство не только художников. Помню, нам академик из Австралии говорил, что специально называет бОльшие сроки тренировки моделей под задачу, чтобы оправдать высокую цену проекта.
Права
Казалось бы, ну вот с правами-то точно у художников плюс. Увы, но нет. Тому несколько причин:
- Художники не хотят работать по договору. Соответственно, права с такими художниками вы никак не закрепите за собой, а при использовании их работ, понадеявшись на честное слово, можете столкнуться в будущем с шантажом.
- Вы не можете проверить, использовал ли художник нейросети в своей работе. Terms of Service никто из них не читал, что там с правами — их вообще не заботит. Кто-то откровенно вводит заказчика в заблуждение, утверждая, что о правах там нет ни слова. Кто-то уверен, что платный аккаунт передаёт им все права (тоже заблуждение). Кто-то цитирует несуществующие законы в неизвестном правовом поле о процентном содержании работы художника и нейросети (по просьбе прислать ссылку на закон следует ответ "а мне так сказали знакомые"). Впрочем, использовать нейросети для референсов, на мой взгляд, вполне себе нормально.
Отдельная категория "художников" начинает вам рассказывать, что вы не знаете, что такое нейросети, и очень заблуждаетесь насчёт них (видимо, с кем-то прокатывает). Последним аргументом можно получить знаменитое "Не знаю, что вы пристали, всем моим заказчикам нравится".
В случае с правами на результаты нейросетей нужно смотреть соглашения каждой отдельно, но в общем, как правило, вы можете использовать результат как угодно, в том числе и коммерчески, и все результаты и залитые данные, промпты принадлежат компании и ее правопреемникам бессрочно без права отзыва. Права на использование у вас неисключительные. В случае с Кандинским можно вообще спулить сетку для локальной генерации, что является огромным плюсом.
Так что с правами у нейросетей все прозрачно и не очень здорово, а у художников — я не нашла ни одного, кто стал бы работать по договору.
Деньги
Нейросети дешевле.
Ко всему прочему, я столкнулась с большим количеством мошенников. Художники, заболевающие и пропадающие после аванса, даже после выполненного первого этапа работы (и тут вас не спасут даже договоры, потому что кто будет судиться из-за таких сумм). Жители одной соседней страны, выдающие себя за белорусов. Художники, которые просят оплату в обход биржи фриланса. Художники, которые просят перейти на гонконгскую биржу с российской. И т.д. и т.п.
Никто из художников не хочет работать без аванса. Пары сливов авансов вам будет достаточно, чтобы не захотеть работать с художниками вообще никогда.
Содержание результата
Никакая нейросеть не сравнится с хорошим художником по части управления полученным результатом.
Правда, в моём случае все остальные плюсы нейросетей перевесили этот важный критерий.
Да, и в случае с нейросетью можно нагенерить множество иллюстраций, пусть они и будут довольно общие, но это быстро и дёшево.
Нейросеть Kandinsky
Главный её плюс в том, что можно спулить и генерить себе локально, залетая в бар и заказывая минус 2 кружки пива. Можно подкручивать параметры функции именно так, как тебе надо.
Negative prompt работает через раз, поэтому проще подобрать random seed, чем исправить два подбородка.
Нет, от вопроса "Где здесь туалет" бар не сгорает, но донести до сетки, что же именно тебе надо, иногда просто невозможно. Что тут может помочь — гуглите то, что вам нужно, смотрите названия и подписи изображений, и редактируете промпт в соответствии с ними. Русскоязычные запросы почти не работают, промптить лучше на английском. Ну и попробуйте зайти с другой стороны: если сеть вместо татар выдает вам скандинавов (лол), попросите у нее half-asian person, глядишь чего и получится.
Образы, связанные с культурой нашей страны, от неё получить мне тоже не удалось, разве что кринжовую клюкву в стиле американской пропаганды.
Нейросеть хорошо копирует стили известных художников. И это настолько выходит неоригинально, что использовать такое у себя не будешь. Из этого есть выход: у кандинского есть режим миксования изображений. Так что, получив жуткую копию работ Гигера, я дважды последовательно замиксовала ее с другими изображениями. Потом отдельной сеткой делала апскейл полученного изображения до необходимого разрешения.
Получилось вот что:
Пока я писала статью, вышла сетка Kandinsky-3. Я решила сравнить, но не тут-то было: на мою 24-гиговую GPU карту модель fp16 не влезла. Точнее влезла кое-как, но максимально возможное разрешение, которое мне удалось получить — 256х256.
Они переписали пайплайн запроса в примере с ipy-ноутбуками, и вроде проще сделали, но теперь надо потратить время, чтобы залезть вовнутрь и вытащить параметры, которыми можно управлять для генерации. Делать этого, как и арендовать карточку на 48 гигов, при решённой уже задаче, из любопытства, я не буду.
Такой же запрос с приблизительно теми же параметрами, для картинки из статьи чуть выше, на 256х256, выдал это, и сравнить это не то чтобы можно было:
Ну и на этом всё, пожалуй.
Комментарии (14)
snakers4
01.12.2023 17:59-1А что касается самой книжки, я прочитал ее на стадии черновика и могу всем рекомендовать.
Тут я расписал более подробно, почему ее стоит прочитать. Если в 1 предложение - роман соединяет некую сказочную мечтательность стиля повествования Р. Брэдбери с остро-философскими вопросами стиля С. Лема, но при этом он гораздо более мрачный и базируется на современном состоянии мира.
Kodim
01.12.2023 17:59+1Так, а книгу-то гдепочитать?
nurtdinovadf Автор
01.12.2023 17:59Я не стала оставлять ссылку, чтобы не нарушать правила Хабра. Можно загуглить сочетание "название книги + автор".
SergioT4
01.12.2023 17:59Главный её плюс в том, что можно спулить и генерить себе локально, залетая в бар и заказывая минус 2 кружки пива.
Что-то не сходится, чем онлайн сервисы то не угодили. Есть задача сделать обложку - т.е. одну картинку, зачем тогда геморрой с локальной версией? В любимом баре нету вайфай?
Мне кажется что в деле получения картинки - главный плюс это качество результата. Почему не какой-нибудь midjourney?
nurtdinovadf Автор
01.12.2023 17:59В локальной версии можно изменять параметры, как душе угодно. Тот же миксинг в любой пропорции, любые пропорции высоты-ширины изображений, менять количество шагов генерации и декодинга. И не надо лить на чужие сервера.
Не помню ничего про вайфай в анекдоте про бар, видимо, я встречала не все версии.
Я не хочу платить западным корпорациям, и я читала их Terms of Service. К тому же, качество сейчас хорошее и у Кандинского, и гораздо проще его спулить и завести у себя, чем возиться с оплатой и в дискорде ждать очереди.
Captain_in_the_Green_Hat
01.12.2023 17:59+1Когда времени много и заняться нечем, да и делать-то особо ничего не умеешь, то можно нарисовать обложку самостоятельно.
На бумаге, правда, такое не издашь, но книги-то пишут для себя, так что плюньте на художников, рисуйте самостоятельно, как видите и ждите, пока нейросетка дозреет.
Потом огорошил её нетленкой и сиди себе указявки раздавай, чтобы поправила орфографию, обогатила язык, нарисовала чего-нибудь, ну и дописала до кучи. Красота
:-)
RigidStyle
01.12.2023 17:59-8Если в двух словах, то вы хотите получить идеальный для себя результат, надеясь что художник (или нейронка) все сделает за вас, прочитав ваши мысли, как должно быть. Это так не работает.
Посмотрите мой пост. Он у меня единственный в профиле. И там есть примеры в том числе и футуристических обложек. И я могу научить вас делать обложки и не только. И все права у вас будут. Курс 300 долларов стоит.
falseshepard
01.12.2023 17:59Зачем брать заведомо плохой инструмент и потом удивляться, что результат так себе вышел? Вы же не будете снег детской лопаткой убирать.
Берите SD если есть время изучать или MJ если хочется просто красивую картинку без возможности влиять на результат.
nurtdinovadf Автор
01.12.2023 17:59+1Я не могу сказать, что результат для нейросети плохой и что инструмент заведомо плохой. На мой взгляд, обложка получилась неплохой, но художник сдлеал бы лучше. SD и MJ точно так же не смогут сгенерить татарскую кожаную мозаику или татарских василисков, так что ваши претензии необоснованны.
RigidStyle
01.12.2023 17:59-1А что такое "лучше". Как вообще можно оценить "лучшесть" в контексте иллюстрации? Концептуально лучше? Или лучше бы выполнил прорисовку деталей? Или лучше что сделал бы? Вопрос "лучшести" в контексте иллюстрации очень субъективен.
Плюс художник бы выдал один вариант за пол тысячи долларов, и на этом бы все закончилось. Работа же с хорошей проработкой деталей стоила бы полторы тысячи долларов. Ну я говорю про тех художников, которые способны делать хорошо (надеюсь не для кого не секрет, что нормальный художник берет нормально денег за свою работу).Нейросеть в правильных руках делает быстрее и качественней, чем подавляющее большинство художников. Так еще и почти бесплатно.
А после того, как готово несколько десятков вариантов, никто не мешает взять нужный, и отдать художнику на доработку. Но по моим наблюдениям так никто не делает, потому что результата работы найросети хвататет более чем. Ну это конечно если использовать нормальную нейросеть, а не кастрированный и кривой "импортозамещенный" клон СД от Сбера.
snakers4
В новой версии для галочки они Чебурашку добавили) А так довольно патетично, что 1.5 трлн. рублей там настолько "не в коня" пошли.
Хотя наверное у них единственных была возможность нормально локально запускать.
То, что сетка стала неюзабельной без карты за пару миллионов тоже занятно.
А почему не Stable diffusion? Она же тоже локальная вроде.
nurtdinovadf Автор
Можно было и её потыкать, но раз уж есть творение инженеров Сбера, то пусть работает)
snakers4
Наверное стоит сохранить все свои промпты, и попробовать их в SD тоже засунуть. Когда-то сетка сбера отличалась тем, что там можно было бесконечно промпты и картинки миксовать (не сильно залазя внутрь).