Midjourney — нейросеть генерирующая картинки по текстовому описанию / forpes.ru

Главная
Midjourney — нейросеть генерирующая картинки по текстовому описанию

Midjourney — нейросеть генерирующая картинки по текстовому описанию +15

10.09.2022 08:27

Denis_Zelenykh 21 11000 Источник

В наше время нейросетью уже мало кого удивишь, эти штуки умеют обрабатывать видео, вести диалог с человеком, выполнять поиск материалов в интернете, писать музыку, распознавать объекты на фото, помогают обрабатывать фото и многое другое. Сегодня я хочу рассказать о сетке рисующей картинки — Midjourney.

Команда Midjourney позиционирует себя как независимую исследовательскую лабораторию, занимающуюся расширением творческих способностей человечества.

Проект был запущен в феврале 2022 ученым и предпринимателем Дэвидом Хольцом.

Давид Хольц — выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл. В студенчестве работал в Институте Макса Планка, где изучал алгоритмы нейровизуализации, также работал в исследовательском центре NASA и принимал участие в разработке технологии LiDAR (обнаружение и определение дальности с помощью света, технология используется, в том числе, в камерах iPhone).

Подробнее о личности основателя можно прочесть вот в этой заметке.

Midjourney является независимым самофинансируемым проектом над которым трудится команда из 11 штатных сотрудников, а также большое количество внешних консультантов. Перечень всех участников проекта доступен на официальном сайте проекта.

Работу Midjourney обеспечивают алгоритмы распознавания речи и алгоритмы создающие образы. Проще говоря, Миджорни умеет распознавать печатный текст и преобразовывать его в картинки. Для этого необходимо на английском языке описать сюжет, направить его на обработку сетке и дождаться результата. После полученный результат можно немного модернизировать, увеличить его качество и скачать.

Получаются вот такие картинки.

Сетка представлена в формате Дискорд-бота. Придуманный сюжет нужно направить боту в чат, а в ответ он пришлёт сгенерированную картинку.

Наличие такого инструмента в будущем очень сильно упростит работу дизайнера, решив проблему отсутствия контента на стоках, длительный поиск необходимых материалов.

Для быстрого создания контента понадобится воображение, умение структурировать информацию и интерпретировать ее в понятные словосочетания. Ну, круто же!

Я уверен, что никакие нейросети и Скайнеты не заменят дизайнера, но очень сильно упростят его работу.

Теперь о том, как протестировать это чудо техники. ????

Сейчас сетка находится на этапе открытого бета-тестирования, доступ может получить каждый. Для этого необходимо:

1. Перейти на сайт Миджорни — midjourney.com и нажать кнопку «join the beta».

2. Сайт перенаправит вас в Discord. Там необходимо авторизоваться или создать аккаунт. Авторизация через Дис обязательна — нейросеть работает в формате Дискорд-бота.

3. Далее нужно дать сетке необходимые разрешения.

4. После чего система вас может направить в личный кабинет Миджорни. Выглядит он как на скрине. Чтобы из кабинета попасть в Дискорд-бот нужно нажать на ваш аватар в нижней части экрана и выбрать пункт «Go to Discord». Может сразу направить в бот, бывает по-разному. ????

5. Открывшийся канал нейросети, будет выглядеть так.

6. Можно ознакомиться со справочной инфой в разделе «welcome», там кратко описано что к чему.

7. После чего нужно перейти в любой канал название которого начинается как newbies: «newbies-102», «newbies-132» и т.д.

8. Находясь в канале необходимо в текстовую строку ввести команду «/imagine promt» и текст сюжета, должно получиться как на скрине.

9. После того как будет вставлен текст нужно нажать энтер и можно наблюдать в реальном времени процесс генерации картинок. Это займет около минуты.

10. Можно не ждать — когда картинка будет готова нейросеть пришлет уведомление. Перейти к записи в канале можно через центр уведомлений Дискорда.

11. Ознакомившись с результатом, можно попросить сетку проработать варианты одного из сюжетов нажав одну из кнопок V1, V2, V3 или V4. Кнопки соответствуют одному из четырёх предложенных вариантов.

12. Кнопки типа U1 и т.д. необходимы для инициации процесса улучшения качества картинки — «upscale».

13. После того как картинка будет доработана ее можно скачать или ещё немного доработать, увеличить размер до максимума, а также оценить.

На GitHub существует более обширный гайд по работе с сетью. В нём доступны различные дополнительные команды и настройки.

Ссылка на гайд тут.

Стоит ещё добавить, что большинство продуктов делаются людьми для зарабатывания денег и Миджорни не исключение. Для тестирования работы сетки разработчиками бесплатно предоставляются «25 действий»: можно сгенерировать 25 сетов по 4 картинки в низком качестве или меньшее количество сетов и за оставшиеся баллы (действия) проработать варианты или увеличить качество изображений.

Когда лимит будет исчерпан бот пришлет вам вот такое уведомление.

Для увеличения лимитов можно перейти в админку сети и приобрести один из предложенных пакетов.

На этом у меня всё. Очень рекомендую протестировать сетку и очень жду, когда нейросети станут одним из инструментов дизайна, таким же привычным как Фигма или Фотошоп. ????

Комментарии (21)

MonkeyWatchingYou
10.09.2022 11:22
#24715840
Уверен, за этим будущее дизайна, но...
Но пока она не сможет рисовать по запросу "Не знаю чего, сделайте чего нибудь" будущее не наступит.
А главное нужно угадать с первого раза и знать, всё включая личные предпочтения клиента учитывая всё предыдущее и много моментов, которые написать в виде запроса человеку пока не под силу.

А "Мидконструктора" ещё нет пока? А то очень нужно.
1. Denis_Zelenykh Автор
  10.09.2022 17:25
  #24716644
  Да, пока сетки не могут учесть всех нюансов, местами результат получается топорный. Чтобы получилось что-то вменяемое нужно отправлять разные запросы и корректировать результаты работы. В целом работа дизайнера в этом и заключается – итеративного дорабатывать разные концепции.
  
  По запросу «Не знаю чего, сделайте чего нибудь», дизайнер также ничего не сможет сделать. Сначала нужно составить бриф и уточнить все детали у клиента, что бы потом не рисовать бесконечное количество вариантов.)
  
  Касаемо вкусовых предпочтений – тут также сначала нужно составить бриф и после показать клиенту референсы, что бы убедиться что дизайнер и клиент говорят об одном и тоже. Только после этого дизайнер приступает к работе. В случае с сеткой дизайнеру потребуется максимально подробно описать запрос исходя из данных зафиксированных в брифе.
  
  Говорить о сетях как о серьёзном инструменте пока сложно, но возможно, в будущем они таковыми станут и это было бы круто.)
1. Aquahawk
  10.09.2022 22:11
  #24717140
  +2
  Посмотрите это видео, вам понравится https://youtu.be/nVhmFski3vg

Neuromantix
10.09.2022 14:06
#24716206
+2
Нейросеть может нарисовать что угодно. Из того. что разработчики не внесли в список забаненых слов.
1. Denis_Zelenykh Автор
  10.09.2022 17:26
  #24716654
  Да, сетка рисует что угодно главное максимально подробно составить запрос.
  1. Neuromantix
    10.09.2022 18:18
    #24716702
    +3
    Нет. Вот у меня знакомая, любительница киберпанка (жанра, не игры) захотела свой портрет. В итоге по запросу выдавался портрет среднестатистической байкерши, а все попытки сделать его более откровенным натыкались на то, что слова типа fetish, bdsm, sexy, sexual и другие, которые бы намекали на большую откровенность, являются banned. Все. приехали.
    
    Doman
    10.09.2022 18:41
    #24716738
    +1
    Это же проблема конкретной имплементации, а не технологии в целом. Если есть компьютер с современной видеокартой - можно самому генерировать безо всякой цензуры.
    
    Alexsey
    10.09.2022 19:43
    #24716834
    Если есть компьютер с современной видеокартой - можно самому генерировать безо всякой цензуры.
    
    Ценность что midjourney, что полноценного dall-e в размере нейросети и количестве данных, которые туда скормили. Речь идет скорее всего о сотнях терабайт (если не нескольких петабайтах) данных и сотнях часов тренировки на десятках карт уровня tesla v100/a40.
    
    Dall-e mini это, конечно, весело и работает на, условно, любом ведре, но выхлоп соответствующий.
    
    Doman
    10.09.2022 20:47
    #24716956
    +3
    Так в этом же вся мякота как раз - итоговая модель весит всего несколько Гб, а знаний там действительно зашито на петабайты. Как раз недавно состоялся опенсорс релиз Stable Diffusion, моделька которой по уровню вполне DALL-E 2, только все это локально. А существующие форки позволяют все это запускать на 4Гб видюхах и даже M1 маках (на интел маках, вроде, тоже пойдет). Примеры можно здесь посмотреть.
    
    timiryazevec
    10.09.2022 20:49
    #24716966
    Так Stable Diffusion же в открытом доступе, все фильтры легко обойти. А судя по качеству это уже очень достойный уровень

panteleymonov
10.09.2022 21:35
#24717074
Сломался

Wesha
11.09.2022 07:09
#24717560
Давайте забубеним тест, который DALL-E с треском провалила.

czz
11.09.2022 12:12
#24718030
Я несколько дней экспериментировал с Midjourney, за это время сгенерировал почти 300 картинок, еще больше просмотрел. И теперь везде, где в интернете встречаются картинки из Midjourney, они узнаются автоматически - по какому-то типовому набору элементов, стилей, цветовых гамм, композиций.

Может быть, у DALL-E с этим лучше, но туда мне так и не прислали инвайт.
1. Denis_Zelenykh Автор
  11.09.2022 12:27
  #24718070
  Тоже это заметил.

czz
11.09.2022 12:18
#24718044
В статье есть ссылка на гайд, он сложный, но рекомендую его изучить. Тогда можно получать более разнообразные результаты, чем сеть дает по умолчанию, используя разные стили и режимы.

Например, относительно недавно появились новые режимы --test и --testp, дают интересные результаты. Или можно добавить --chaos 100, будет больше свободы при трансляции слов в наборы изображенных предметов.

vagon333
11.09.2022 16:41
#24718834
+2
Рискую быть люто заминусованным: сначала восторгался Midjourney, но нужно представление между описанием и получаемой картинкой.
Сделал домашний проект с картинками Midjourney и описаниями.
Может кому будет польза: https://www.fartofart.com/
PS: это не реклама. Доступ открытый, коммерческая выгода не преследуется. Просто любопытно.

Anarchist
11.09.2022 18:14
#24719058
В канале midjourney вижу ленту картинок, когда задаю своё описание, крайне трудно потом найти картинку по нему. Никаких уведомлений не приходит. Возможности обновить или уточнить текст нет. Картинка быстро теряется в ленте.
1. czz
  11.09.2022 19:15
  #24719226
  Можно увидеть их в своем аккаунте на https://www.midjourney.com/app/, там у каждой есть ссылка на соответствующее сообщение в discord. Но никаких манипуляций с ними в аккаунте не произвести, только в discord. Это, конечно, очень неудобно.

Uris
12.09.2022 12:01
#24721192
Мне так немножко кажется, что эти сети могут генератор лишь всякую абстрактную муть, фэнтази и сюжеты из кошмаров, а что-то вызывающие светлую радость или удивление — вряд ли…
1. nitro80
  12.09.2022 14:09
  #24721928
  +1
  Так светлая радость у кого-то может быть например от фэнтези )
1. panteleymonov
  12.09.2022 21:09
  #24723376
  Я попросил нарисовать матрешку с кошкой, в общем получилась лажа, поскольку вместо матрешки с расписным платком я увидел кошачью морду. Но все же идея, как можно нарисовать саму матрешку в виде кошки, интересна.
  
  Тем не менее, запрос нарисовать двух разных персонажей с подробным описанием, выдает одного красиво склеенного персонажа из всех частей. При этом двух плачущих детей она может нарисовать.
  
  В целом такой генератор интересно использовать как подсказчика.

Midjourney — нейросеть генерирующая картинки по текстовому описанию +15

Комментарии (21)

Denis_Zelenykh Автор

Denis_Zelenykh Автор

Denis_Zelenykh Автор