В наше время нейросетью уже мало кого удивишь, эти штуки умеют обрабатывать видео, вести диалог с человеком, выполнять поиск материалов в интернете, писать музыку, распознавать объекты на фото, помогают обрабатывать фото и многое другое. Сегодня я хочу рассказать о сетке рисующей картинки — Midjourney.

Команда Midjourney позиционирует себя как независимую исследовательскую лабораторию, занимающуюся расширением творческих способностей человечества.

Проект был запущен в феврале 2022 ученым и предпринимателем Дэвидом Хольцом.

Давид Хольц — выпускник факультета прикладной математики Университета Северной Каролины в Чапел-Хилл. В студенчестве работал в Институте Макса Планка, где изучал алгоритмы нейровизуализации, также работал в исследовательском центре NASA и принимал участие в разработке технологии LiDAR (обнаружение и определение дальности с помощью света, технология используется, в том числе, в камерах iPhone).

Подробнее о личности основателя можно прочесть вот в этой заметке.

Midjourney является независимым самофинансируемым проектом над которым трудится команда из 11 штатных сотрудников, а также большое количество внешних консультантов. Перечень всех участников проекта доступен на официальном сайте проекта.

Работу Midjourney обеспечивают алгоритмы распознавания речи и алгоритмы создающие образы. Проще говоря, Миджорни умеет распознавать печатный текст и преобразовывать его в картинки. Для этого необходимо на английском языке описать сюжет, направить его на обработку сетке и дождаться результата. После полученный результат можно немного модернизировать, увеличить его качество и скачать.

Получаются вот такие картинки.

Сетка представлена в формате Дискорд-бота. Придуманный сюжет нужно направить боту в чат, а в ответ он пришлёт сгенерированную картинку.

Наличие такого инструмента в будущем очень сильно упростит работу дизайнера, решив проблему отсутствия контента на стоках, длительный поиск необходимых материалов.

Для быстрого создания контента понадобится воображение, умение структурировать информацию и интерпретировать ее в понятные словосочетания. Ну, круто же!

Я уверен, что никакие нейросети и Скайнеты не заменят дизайнера, но очень сильно упростят его работу.

Теперь о том, как протестировать это чудо техники. ????

Сейчас сетка находится на этапе открытого бета-тестирования, доступ может получить каждый. Для этого необходимо:

1. Перейти на сайт Миджорни — midjourney.com и нажать кнопку «join the beta».

2. Сайт перенаправит вас в Discord. Там необходимо авторизоваться или создать аккаунт. Авторизация через Дис обязательна — нейросеть работает в формате Дискорд-бота.

3. Далее нужно дать сетке необходимые разрешения.

4. После чего система вас может направить в личный кабинет Миджорни. Выглядит он как на скрине. Чтобы из кабинета попасть в Дискорд-бот нужно нажать на ваш аватар в нижней части экрана и выбрать пункт «Go to Discord». Может сразу направить в бот, бывает по-разному. ????

5. Открывшийся канал нейросети, будет выглядеть так.

6. Можно ознакомиться со справочной инфой в разделе «welcome», там кратко описано что к чему.

7. После чего нужно перейти в любой канал название которого начинается как newbies: «newbies-102», «newbies-132» и т.д.

8. Находясь в канале необходимо в текстовую строку ввести команду «/imagine promt» и текст сюжета, должно получиться как на скрине.

9. После того как будет вставлен текст нужно нажать энтер и можно наблюдать в реальном времени процесс генерации картинок. Это займет около минуты.

10. Можно не ждать — когда картинка будет готова нейросеть пришлет уведомление. Перейти к записи в канале можно через центр уведомлений Дискорда.

11. Ознакомившись с результатом, можно попросить сетку проработать варианты одного из сюжетов нажав одну из кнопок V1, V2, V3 или V4. Кнопки соответствуют одному из четырёх предложенных вариантов.

12. Кнопки типа U1 и т.д. необходимы для инициации процесса улучшения качества картинки — «upscale».

13. После того как картинка будет доработана ее можно скачать или ещё немного доработать, увеличить размер до максимума, а также оценить.

На GitHub существует более обширный гайд по работе с сетью. В нём доступны различные дополнительные команды и настройки.

Ссылка на гайд тут.

Стоит ещё добавить, что большинство продуктов делаются людьми для зарабатывания денег и Миджорни не исключение. Для тестирования работы сетки разработчиками бесплатно предоставляются «25 действий»: можно сгенерировать 25 сетов по 4 картинки в низком качестве или меньшее количество сетов и за оставшиеся баллы (действия) проработать варианты или увеличить качество изображений.

Когда лимит будет исчерпан бот пришлет вам вот такое уведомление.

Для увеличения лимитов можно перейти в админку сети и приобрести один из предложенных пакетов.

На этом у меня всё. Очень рекомендую протестировать сетку и очень жду, когда нейросети станут одним из инструментов дизайна, таким же привычным как Фигма или Фотошоп. ????

Комментарии (21)


  1. MonkeyWatchingYou
    10.09.2022 11:22

    Уверен, за этим будущее дизайна, но...
    Но пока она не сможет рисовать по запросу "Не знаю чего, сделайте чего нибудь" будущее не наступит.
    А главное нужно угадать с первого раза и знать, всё включая личные предпочтения клиента учитывая всё предыдущее и много моментов, которые написать в виде запроса человеку пока не под силу.

    А "Мидконструктора" ещё нет пока? А то очень нужно.


    1. Denis_Zelenykh Автор
      10.09.2022 17:25

      Да, пока сетки не могут учесть всех нюансов, местами результат получается топорный. Чтобы получилось что-то вменяемое нужно отправлять разные запросы и корректировать результаты работы. В целом работа дизайнера в этом и заключается – итеративного дорабатывать разные концепции.

      По запросу «Не знаю чего, сделайте чего нибудь», дизайнер также ничего не сможет сделать. Сначала нужно составить бриф и уточнить все детали у клиента, что бы потом не рисовать бесконечное количество вариантов.)

      Касаемо вкусовых предпочтений – тут также сначала нужно составить бриф и после показать клиенту референсы, что бы убедиться что дизайнер и клиент говорят об одном и тоже. Только после этого дизайнер приступает к работе. В случае с сеткой дизайнеру потребуется максимально подробно описать запрос исходя из данных зафиксированных в брифе.

      Говорить о сетях как о серьёзном инструменте пока сложно, но возможно, в будущем они таковыми станут и это было бы круто.)


    1. Aquahawk
      10.09.2022 22:11
      +2

      Посмотрите это видео, вам понравится https://youtu.be/nVhmFski3vg


  1. Neuromantix
    10.09.2022 14:06
    +2

    Нейросеть может нарисовать что угодно. Из того. что разработчики не внесли в список забаненых слов.


    1. Denis_Zelenykh Автор
      10.09.2022 17:26

      Да, сетка рисует что угодно главное максимально подробно составить запрос.


      1. Neuromantix
        10.09.2022 18:18
        +3

        Нет. Вот у меня знакомая, любительница киберпанка (жанра, не игры) захотела свой портрет. В итоге по запросу выдавался портрет среднестатистической байкерши, а все попытки сделать его более откровенным натыкались на то, что слова типа fetish, bdsm, sexy, sexual и другие, которые бы намекали на большую откровенность, являются banned. Все. приехали.


        1. Doman
          10.09.2022 18:41
          +1

          Это же проблема конкретной имплементации, а не технологии в целом. Если есть компьютер с современной видеокартой - можно самому генерировать безо всякой цензуры.


          1. Alexsey
            10.09.2022 19:43

            Если есть компьютер с современной видеокартой - можно самому генерировать безо всякой цензуры.

            Ценность что midjourney, что полноценного dall-e в размере нейросети и количестве данных, которые туда скормили. Речь идет скорее всего о сотнях терабайт (если не нескольких петабайтах) данных и сотнях часов тренировки на десятках карт уровня tesla v100/a40.

            Dall-e mini это, конечно, весело и работает на, условно, любом ведре, но выхлоп соответствующий.


            1. Doman
              10.09.2022 20:47
              +3

              Так в этом же вся мякота как раз - итоговая модель весит всего несколько Гб, а знаний там действительно зашито на петабайты. Как раз недавно состоялся опенсорс релиз Stable Diffusion, моделька которой по уровню вполне DALL-E 2, только все это локально. А существующие форки позволяют все это запускать на 4Гб видюхах и даже M1 маках (на интел маках, вроде, тоже пойдет). Примеры можно здесь посмотреть.


            1. timiryazevec
              10.09.2022 20:49

              Так Stable Diffusion же в открытом доступе, все фильтры легко обойти. А судя по качеству это уже очень достойный уровень


  1. panteleymonov
    10.09.2022 21:35

    Сломался


  1. Wesha
    11.09.2022 07:09

    Давайте забубеним тест, который DALL-E с треском провалила.


  1. czz
    11.09.2022 12:12

    Я несколько дней экспериментировал с Midjourney, за это время сгенерировал почти 300 картинок, еще больше просмотрел. И теперь везде, где в интернете встречаются картинки из Midjourney, они узнаются автоматически - по какому-то типовому набору элементов, стилей, цветовых гамм, композиций.

    Может быть, у DALL-E с этим лучше, но туда мне так и не прислали инвайт.


    1. Denis_Zelenykh Автор
      11.09.2022 12:27

      Тоже это заметил.


  1. czz
    11.09.2022 12:18

    В статье есть ссылка на гайд, он сложный, но рекомендую его изучить. Тогда можно получать более разнообразные результаты, чем сеть дает по умолчанию, используя разные стили и режимы.

    Например, относительно недавно появились новые режимы --test и --testp, дают интересные результаты. Или можно добавить --chaos 100, будет больше свободы при трансляции слов в наборы изображенных предметов.


  1. vagon333
    11.09.2022 16:41
    +2

    Рискую быть люто заминусованным: сначала восторгался Midjourney, но нужно представление между описанием и получаемой картинкой.
    Сделал домашний проект с картинками Midjourney и описаниями.
    Может кому будет польза: https://www.fartofart.com/
    PS: это не реклама. Доступ открытый, коммерческая выгода не преследуется. Просто любопытно.


  1. Anarchist
    11.09.2022 18:14

    В канале midjourney вижу ленту картинок, когда задаю своё описание, крайне трудно потом найти картинку по нему. Никаких уведомлений не приходит. Возможности обновить или уточнить текст нет. Картинка быстро теряется в ленте.


    1. czz
      11.09.2022 19:15

      Можно увидеть их в своем аккаунте на https://www.midjourney.com/app/, там у каждой есть ссылка на соответствующее сообщение в discord. Но никаких манипуляций с ними в аккаунте не произвести, только в discord. Это, конечно, очень неудобно.


  1. Uris
    12.09.2022 12:01

    Мне так немножко кажется, что эти сети могут генератор лишь всякую абстрактную муть, фэнтази и сюжеты из кошмаров, а что-то вызывающие светлую радость или удивление — вряд ли…


    1. nitro80
      12.09.2022 14:09
      +1

      Так светлая радость у кого-то может быть например от фэнтези )


    1. panteleymonov
      12.09.2022 21:09

      Я попросил нарисовать матрешку с кошкой, в общем получилась лажа, поскольку вместо матрешки с расписным платком я увидел кошачью морду. Но все же идея, как можно нарисовать саму матрешку в виде кошки, интересна.

      Тем не менее, запрос нарисовать двух разных персонажей с подробным описанием, выдает одного красиво склеенного персонажа из всех частей. При этом двух плачущих детей она может нарисовать.

      В целом такой генератор интересно использовать как подсказчика.