В наше время нейросетью уже мало кого удивишь, эти штуки умеют обрабатывать видео, вести диалог с человеком, выполнять поиск материалов в интернете, писать музыку, распознавать объекты на фото, помогают обрабатывать фото и многое другое. Сегодня я хочу рассказать о сетке рисующей картинки — Midjourney.
Команда Midjourney позиционирует себя как независимую исследовательскую лабораторию, занимающуюся расширением творческих способностей человечества.
Проект был запущен в феврале 2022 ученым и предпринимателем Дэвидом Хольцом.
Давид Хольц — выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл. В студенчестве работал в Институте Макса Планка, где изучал алгоритмы нейровизуализации, также работал в исследовательском центре NASA и принимал участие в разработке технологии LiDAR (обнаружение и определение дальности с помощью света, технология используется, в том числе, в камерах iPhone).
Подробнее о личности основателя можно прочесть вот в этой заметке.
Midjourney является независимым самофинансируемым проектом над которым трудится команда из 11 штатных сотрудников, а также большое количество внешних консультантов. Перечень всех участников проекта доступен на официальном сайте проекта.
Работу Midjourney обеспечивают алгоритмы распознавания речи и алгоритмы создающие образы. Проще говоря, Миджорни умеет распознавать печатный текст и преобразовывать его в картинки. Для этого необходимо на английском языке описать сюжет, направить его на обработку сетке и дождаться результата. После полученный результат можно немного модернизировать, увеличить его качество и скачать.
Получаются вот такие картинки.
Сетка представлена в формате Дискорд-бота. Придуманный сюжет нужно направить боту в чат, а в ответ он пришлёт сгенерированную картинку.
Наличие такого инструмента в будущем очень сильно упростит работу дизайнера, решив проблему отсутствия контента на стоках, длительный поиск необходимых материалов.
Для быстрого создания контента понадобится воображение, умение структурировать информацию и интерпретировать ее в понятные словосочетания. Ну, круто же!
Я уверен, что никакие нейросети и Скайнеты не заменят дизайнера, но очень сильно упростят его работу.
Теперь о том, как протестировать это чудо техники. ????
Сейчас сетка находится на этапе открытого бета-тестирования, доступ может получить каждый. Для этого необходимо:
1. Перейти на сайт Миджорни — midjourney.com и нажать кнопку «join the beta».
2. Сайт перенаправит вас в Discord. Там необходимо авторизоваться или создать аккаунт. Авторизация через Дис обязательна — нейросеть работает в формате Дискорд-бота.
3. Далее нужно дать сетке необходимые разрешения.
4. После чего система вас может направить в личный кабинет Миджорни. Выглядит он как на скрине. Чтобы из кабинета попасть в Дискорд-бот нужно нажать на ваш аватар в нижней части экрана и выбрать пункт «Go to Discord». Может сразу направить в бот, бывает по-разному. ????
5. Открывшийся канал нейросети, будет выглядеть так.
6. Можно ознакомиться со справочной инфой в разделе «welcome», там кратко описано что к чему.
7. После чего нужно перейти в любой канал название которого начинается как newbies: «newbies-102», «newbies-132» и т.д.
8. Находясь в канале необходимо в текстовую строку ввести команду «/imagine promt» и текст сюжета, должно получиться как на скрине.
9. После того как будет вставлен текст нужно нажать энтер и можно наблюдать в реальном времени процесс генерации картинок. Это займет около минуты.
10. Можно не ждать — когда картинка будет готова нейросеть пришлет уведомление. Перейти к записи в канале можно через центр уведомлений Дискорда.
11. Ознакомившись с результатом, можно попросить сетку проработать варианты одного из сюжетов нажав одну из кнопок V1, V2, V3 или V4. Кнопки соответствуют одному из четырёх предложенных вариантов.
12. Кнопки типа U1 и т.д. необходимы для инициации процесса улучшения качества картинки — «upscale».
13. После того как картинка будет доработана ее можно скачать или ещё немного доработать, увеличить размер до максимума, а также оценить.
На GitHub существует более обширный гайд по работе с сетью. В нём доступны различные дополнительные команды и настройки.
Ссылка на гайд тут.
Стоит ещё добавить, что большинство продуктов делаются людьми для зарабатывания денег и Миджорни не исключение. Для тестирования работы сетки разработчиками бесплатно предоставляются «25 действий»: можно сгенерировать 25 сетов по 4 картинки в низком качестве или меньшее количество сетов и за оставшиеся баллы (действия) проработать варианты или увеличить качество изображений.
Когда лимит будет исчерпан бот пришлет вам вот такое уведомление.
Для увеличения лимитов можно перейти в админку сети и приобрести один из предложенных пакетов.
На этом у меня всё. Очень рекомендую протестировать сетку и очень жду, когда нейросети станут одним из инструментов дизайна, таким же привычным как Фигма или Фотошоп. ????
Комментарии (21)
Neuromantix
10.09.2022 14:06+2Нейросеть может нарисовать что угодно. Из того. что разработчики не внесли в список забаненых слов.
Denis_Zelenykh Автор
10.09.2022 17:26Да, сетка рисует что угодно главное максимально подробно составить запрос.
Neuromantix
10.09.2022 18:18+3Нет. Вот у меня знакомая, любительница киберпанка (жанра, не игры) захотела свой портрет. В итоге по запросу выдавался портрет среднестатистической байкерши, а все попытки сделать его более откровенным натыкались на то, что слова типа fetish, bdsm, sexy, sexual и другие, которые бы намекали на большую откровенность, являются banned. Все. приехали.
Doman
10.09.2022 18:41+1Это же проблема конкретной имплементации, а не технологии в целом. Если есть компьютер с современной видеокартой - можно самому генерировать безо всякой цензуры.
Alexsey
10.09.2022 19:43Если есть компьютер с современной видеокартой - можно самому генерировать безо всякой цензуры.
Ценность что midjourney, что полноценного dall-e в размере нейросети и количестве данных, которые туда скормили. Речь идет скорее всего о сотнях терабайт (если не нескольких петабайтах) данных и сотнях часов тренировки на десятках карт уровня tesla v100/a40.
Dall-e mini это, конечно, весело и работает на, условно, любом ведре, но выхлоп соответствующий.
Doman
10.09.2022 20:47+3Так в этом же вся мякота как раз - итоговая модель весит всего несколько Гб, а знаний там действительно зашито на петабайты. Как раз недавно состоялся опенсорс релиз Stable Diffusion, моделька которой по уровню вполне DALL-E 2, только все это локально. А существующие форки позволяют все это запускать на 4Гб видюхах и даже M1 маках (на интел маках, вроде, тоже пойдет). Примеры можно здесь посмотреть.
timiryazevec
10.09.2022 20:49Так Stable Diffusion же в открытом доступе, все фильтры легко обойти. А судя по качеству это уже очень достойный уровень
czz
11.09.2022 12:12Я несколько дней экспериментировал с Midjourney, за это время сгенерировал почти 300 картинок, еще больше просмотрел. И теперь везде, где в интернете встречаются картинки из Midjourney, они узнаются автоматически - по какому-то типовому набору элементов, стилей, цветовых гамм, композиций.
Может быть, у DALL-E с этим лучше, но туда мне так и не прислали инвайт.
czz
11.09.2022 12:18В статье есть ссылка на гайд, он сложный, но рекомендую его изучить. Тогда можно получать более разнообразные результаты, чем сеть дает по умолчанию, используя разные стили и режимы.
Например, относительно недавно появились новые режимы --test и --testp, дают интересные результаты. Или можно добавить --chaos 100, будет больше свободы при трансляции слов в наборы изображенных предметов.
vagon333
11.09.2022 16:41+2Рискую быть люто заминусованным: сначала восторгался Midjourney, но нужно представление между описанием и получаемой картинкой.
Сделал домашний проект с картинками Midjourney и описаниями.
Может кому будет польза: https://www.fartofart.com/
PS: это не реклама. Доступ открытый, коммерческая выгода не преследуется. Просто любопытно.
Anarchist
11.09.2022 18:14В канале midjourney вижу ленту картинок, когда задаю своё описание, крайне трудно потом найти картинку по нему. Никаких уведомлений не приходит. Возможности обновить или уточнить текст нет. Картинка быстро теряется в ленте.
czz
11.09.2022 19:15Можно увидеть их в своем аккаунте на https://www.midjourney.com/app/, там у каждой есть ссылка на соответствующее сообщение в discord. Но никаких манипуляций с ними в аккаунте не произвести, только в discord. Это, конечно, очень неудобно.
Uris
12.09.2022 12:01Мне так немножко кажется, что эти сети могут генератор лишь всякую абстрактную муть, фэнтази и сюжеты из кошмаров, а что-то вызывающие светлую радость или удивление — вряд ли…
panteleymonov
12.09.2022 21:09Я попросил нарисовать матрешку с кошкой, в общем получилась лажа, поскольку вместо матрешки с расписным платком я увидел кошачью морду. Но все же идея, как можно нарисовать саму матрешку в виде кошки, интересна.
Тем не менее, запрос нарисовать двух разных персонажей с подробным описанием, выдает одного красиво склеенного персонажа из всех частей. При этом двух плачущих детей она может нарисовать.В целом такой генератор интересно использовать как подсказчика.
MonkeyWatchingYou
Уверен, за этим будущее дизайна, но...
Но пока она не сможет рисовать по запросу "Не знаю чего, сделайте чего нибудь" будущее не наступит.
А главное нужно угадать с первого раза и знать, всё включая личные предпочтения клиента учитывая всё предыдущее и много моментов, которые написать в виде запроса человеку пока не под силу.
А "Мидконструктора" ещё нет пока? А то очень нужно.
Denis_Zelenykh Автор
Да, пока сетки не могут учесть всех нюансов, местами результат получается топорный. Чтобы получилось что-то вменяемое нужно отправлять разные запросы и корректировать результаты работы. В целом работа дизайнера в этом и заключается – итеративного дорабатывать разные концепции.
По запросу «Не знаю чего, сделайте чего нибудь», дизайнер также ничего не сможет сделать. Сначала нужно составить бриф и уточнить все детали у клиента, что бы потом не рисовать бесконечное количество вариантов.)
Касаемо вкусовых предпочтений – тут также сначала нужно составить бриф и после показать клиенту референсы, что бы убедиться что дизайнер и клиент говорят об одном и тоже. Только после этого дизайнер приступает к работе. В случае с сеткой дизайнеру потребуется максимально подробно описать запрос исходя из данных зафиксированных в брифе.
Говорить о сетях как о серьёзном инструменте пока сложно, но возможно, в будущем они таковыми станут и это было бы круто.)
Aquahawk
Посмотрите это видео, вам понравится https://youtu.be/nVhmFski3vg