Привет, я Артем, копирайтер-маркетолог для проектов о здоровье. Постоянно пишу много текстов о медицине и биологии, и мне часто нужны картинки соответствующей тематики. Воровать нехорошо, на стоковых сайтах можно найти далеко не всё, а на дизайнера у клиентов не всегда предусмотрен бюджет. Поэтому недавно решил взять себе в помощники популярную нейросеть Midjourney. Провел эксперимент и попросил ее нарисовать некоторые медицинские, биологические объекты. Смотрите, что получилось (можно ли показывать слабонервным – решайте сами).

1. Анатомия – что-то среднее между человеком и гуманоидом

Промпт: human anatomy, bones, muscles, picture from an anatomy textbook, on a white background.

Результат:

Так нейросеть видит анатомию человека
Так нейросеть видит анатомию человека

На первый взгляд довольно реалистично и узнаваемо. До тех пор, пока не начинаешь присматриваться к деталям:

Веки внутри глазниц? Жуть!
Веки внутри глазниц? Жуть!
Что за странная кость у парня в животе?
Что за странная кость у парня в животе?
Сомневаюсь, что можно свободно наклоняться с таким позвоночником и ходить с таким тазом.
Сомневаюсь, что можно свободно наклоняться с таким позвоночником и ходить с таким тазом.
Михаил Сергеевич?
Михаил Сергеевич?

2. Мозг: то ли натуральный, то ли искусственный

Промпт: brain, picture from an anatomy textbook.

Результат:

Мне больше всего понравилась картинка №1 – она самая близкая к оригиналу. Понятно, что предельной анатомической точности от робота-художника ждать не стоит. Без совсем уж грубых косяков – и то спасибо.

На второй картинке мозг как будто врастает в череп. С сосцевидным отростком височной кости явно что-то случилось, а у наружного верхнего угла глазницы, видимо, поселились паразиты.

На третьей картине, вроде бы, мозг, но не человеческий. Я думаю, что это какой-то инопланетянин с приплюснутой головой. Если среди читателей вдруг обнаружатся уфологи, буду рад послушать мнения.

На четвертой картинке – мозг киборга. Только почему-то не с микросхемами, а с каким-то странного вида хитрым механизмом. Я понял: это киборг эпохи Ренессанса.

Итог: для какой-нибудь статьи с натяжкой подойдет лишь картинка №1, исключительно как условное изображение головного мозга.

3. Вирусы: не хочется, чтобы такие реально появились

В моей работе есть два направления: как копирайтер-маркетолог пишу продающие тексты, а как популяризатор науки – научпоп для разных порталов. Одно из моих больших увлечений во втором направлении – бактериофаги. Кто не в курсе – это такие вирусы, атакующие и уничтожающие бактерии. Не мог их обойти стороной. Как они выглядят в реальности, можно нагуглить (самый узнаваемый – фаг лямбда). А вот как их видит нейросеть, и это видение явно выдает в ней натуру творческую, а не научную.

Промпт: bacteriophage (да, вот так просто, дабы не смущать искусственный разум).

Результат:

Что имеем в итоге: подозрительного вида розовую плесень, роботическую… муху?.. таракана?.. муравья? И два паука-диода (или паука-лампочки): один откладывает яйца, второй копошится в грязи. Кстати, по «анатомии» на настоящего бактериофага больше всего похож последний. Только настоящие фаги состоят не из металла и лампочки, а из молекул белка (а внутри спрятан генетический материал).

В своих статьях я бы стал использовать только картинку №4, и то только как заставку, некий креатив, не имеющий отношения к реальности.

4. Молекула ДНК – такая не снилась ни Крику, ни Уотсону

Промпты:

1. deoxyribonucleic acid molecule.

2. schematic representation of the structure of a DNA molecule on a white background.

Результаты:

С первыми четырьмя изображениями не задалось сразу: нейросеть поняла только слово «молекула». Вот и нарисовала какую-то молекулу. Красивая, в 3D. Наверняка эти картинки где-то получится использовать. Но явно не в статье про ДНК.

Вторая серия изображений поинтереснее. Более похоже на оригинал, но всё равно не айс. Возможно, если бы Леонардо да Винчи знал о существовании и форме ДНК, но не совсем понимал, как она устроена, он бы нарисовал ее так.

5. МРТ-томограф: самый реалистичный, но всё равно жутковатый

Промпт: MRI realistic.

Результат:

Пожалуй, эта часть эксперимента самая удачная. МР-томографы (аппараты для МРТ) получились вполне реалистичными и узнаваемыми. Но мне лезть в такой было бы жутковато: непонятно, что там светится внутри (может быть, дело не в картинке, а в моем тревожно-депрессивном расстройстве).

Наиболее жутко смотрится картинка №2. Напоминает прачечную в американских фильмах, где в ряд стоят стиральные машины. Вопросов много. Что там делают с пациентами (и с пациентами ли?). Включают ли эти аппараты одновременно? Что при этом происходит с магнитным полем?

Умиляет картинка №1: ИИ заботливо подписал для сумняшихся, что это аппарат для МРТ. Только по-английски правильно будет не «MRA», а «MRI».

Выводы

Если попросить нейросеть нарисовать что-то по медицине или биологии, то идеальной и вообще принципиальной точности в деталях ожидать не стоит. Но, извините за тавтологию, я примерно такого результата и ожидал. Примерно – потому что надеялся на что-то получше.

Впрочем, можно работать и с тем, что имеем. В качестве какого-то креатива некоторые изображения вполне подойдут на заставку или даже где-то в тексте. Смотря какой и о чем текст. В целом пользоваться можно, хотя и ограниченно.

А вы юзаете нейросети для создания иллюстраций к статьям? Поделитесь опытом в комментах. Может быть, считаете, что я просто тупой и не умею составлять промпты? Готов принять такую позицию – если обоснуете.

Комментарии (94)


  1. Aquahawk
    29.09.2023 16:57
    +26

    Ровно такого же качества получается ответ от текстовых сетей типа ChatGPT, на первый взгляд можеть быть и ок, а по сути ересь и ничего общего с реальностью. И чем развитее они будут тем правдоподобнее будет выглядеть результат, том же ничтожном качестве.


    1. imhotep1985 Автор
      29.09.2023 16:57
      +7

      Пробовал генерить ради интереса медицинские тексты в ChatGPT. Не сказал бы что ересь, но пишет он общими фразами, для моих клиентов однозначно не пойдет. Качество на уровне копирайтеров с недорогих бирж.


      1. Glen5
        29.09.2023 16:57
        +1

        Просил пересказать несколько книг. Видно что с текстом знаком больше чем по аннотациям в сети, но все что касается сюжета пишет полную глупость, причем если спросить еще раз про тоже произведение - напишет совершенно другой рандом с теми же героями.


        1. imhotep1985 Автор
          29.09.2023 16:57
          +1

          Видимо, качество ответов зависит от особенностей задачи. По медицине ChatGPT, по моему опыту, не тупит и не перевирает в целом, +/-, но рассказывает очень общими фразами. Пару раз с детьми попросили написать сказку - пишет довольно банально. Просил как-то написать длинную историю в стиле "Властелина колец". Вот тут он начал путаться в сюжете и выдавать нестыковки.


        1. diakin
          29.09.2023 16:57
          +5

          Это называется генератор фанфиков. Крутая вещь на самом деле! Потом это все заливается на литрес или авторстудей и вуаля.


    1. NAGIBATOR-1999
      29.09.2023 16:57
      +8

      А если вам дать задание нарисовать опорно-двигательную систему человека, вы с какой попытки сделаете правильно?

      Клац


      1. imhotep1985 Автор
        29.09.2023 16:57
        +6

        С первой, конечно же. В моем случае этот вопрос ничуть не каверзный - анатомию изучал, и весьма глубоко.


        1. NAGIBATOR-1999
          29.09.2023 16:57
          +10

          А я не вас спрашивал. Вас я попрошу нарисовать РД-180 :)


          1. imhotep1985 Автор
            29.09.2023 16:57
            +1

            А я откажу в этой просьбе)


            1. Sau
              29.09.2023 16:57
              +2

              Вот он, настоящий интеллект! :)


              1. imhotep1985 Автор
                29.09.2023 16:57
                +1

                Где?)


                1. Sau
                  29.09.2023 16:57
                  +2

                  В отказе в просьбе, конечно. ИИ слишком уж на всё соглашаются.


      1. Aquahawk
        29.09.2023 16:57
        +8

        я скажу что не знаю и не умею и небуду пытаться зафейкать ответ. Тоже самое касается и ткстовых моделек. Они всё предпочитают выдавать максимально правдоподобные галлюцинации вместо четкого нет.


        1. NAGIBATOR-1999
          29.09.2023 16:57
          +3

          Midjourney - это художник, а не анатом. Он не должен делать правильно, он должен делать красиво.

          — Ага!!! — сказали суровые сибирские мужики.


          1. Airtrain
            29.09.2023 16:57
            +2

            >Midjourney - это художник, а не анатом

            300 раз хахахаха. Чтобы рисовать людей, нужно хорошо знать анатомию. Зайдите на джойреактор и почитайте комменты к какому-нибудь "каляки маляки".


            1. NAGIBATOR-1999
              29.09.2023 16:57

              Если ты мешок с костями, то нужно, да.


            1. Airtrain
              29.09.2023 16:57
              +4

              Ещё, кстати, вспомнилось смешное.

              Года 2 назад массово рисовали по мотивам какой-то игры субтильную деваху с 4 или 6 руками, дык там кто-то сетовал что с реалистичным скелетом у неё должен был быть горб как у квазимоды. А не обычная эротишная спина.


    1. alextrof94
      29.09.2023 16:57

      Ну, на программировать софт с либой, примеры к которой не гуглятся, он мне помог. Половину программы написал мне, и выглядит код логичным. Видимо тут всё зависит от области


  1. antinoy
    29.09.2023 16:57
    -1

    Сейчас опять понабегут фанатики искусственного маразма и заминусят.


    1. imhotep1985 Автор
      29.09.2023 16:57
      +1

      Не совсем вас понял, видимо, потому что только вчера выложил свою первую статью и ранее не читал активно Хабр.)


    1. red75prim
      29.09.2023 16:57
      +1

      Чтобы поставить минус бездоказательному утверждению, что сети на основе GPT никогда не добьются паритета с человеком, не нужно быть фанатиком. Достаточно считать, что у нас в мозгах не происходит никаких чудес и что GPT потенциально может быть частью ИИ общего назначения.


      1. imhotep1985 Автор
        29.09.2023 16:57
        +1

        В статье нет утверждения о том, что сети на основе GPT никогда не добьются паритета с человеком. Из моего эксперимента, скорее, следует, что пока не добились во вполне конкретной сфере.


        1. red75prim
          29.09.2023 16:57

          Извиняюсь. Думал, что комментарий на который я отвечаю относится к https://habr.com/ru/articles/764486/comments/#comment_26012684


      1. Offensive
        29.09.2023 16:57

        Что у нас в мозгах происходит никто никогда не узнает. В лучшем случае группировка гигачадов с волей и разумом сможет по немногу осознать кусочки разума. 1 человек никогда не осознает работу мозга, т. к. для этого нужно больше чем 1 мозг


        1. rombell
          29.09.2023 16:57

          "Человек никогда не будет летать" (с) очень много кто


  1. Emulyator
    29.09.2023 16:57
    +5

    Большинство моделей заточены под то, что популярно, а значит и в картинках для обучения встречалось часто. Это люди, красивые пейзажи, всякие аниме, в общем, картины, рендеры, иллюстрации, фото доступные в сети. С учетом этого, показанный результат просто великолепен. Можно попробовать дообучить нейронку (из тех что доступны в общем доступе) на картинках требуемой тематики, не факт, что будет научно точно (и даже не факт, что лучше чем тут показано), но это обычная практика.


    1. imhotep1985 Автор
      29.09.2023 16:57
      +2

      Есть еще проблема: во многих сервисах, в т. ч. миджорни, под запретом многие термины, связанные с медициной, чтобы не рисовали расчлененку и контент 18+. Насколько я понимаю, из-за этого нейросети даже не обучаются в этом направлении. Видимо, выход в создании отдельных нейросетей под определенные сферы с особыми условиями регистрации.


      1. iiiytn1k
        29.09.2023 16:57
        +2

        Вы на civitai заглядывали хоть раз? Зарегистрируйтесь там или войдите под своим discord/github/google/reddit аккаунтом, чтобы иметь возможность просматривать "нейросети под определённые сферы". И уберите детей подальше от экрана монитора.


        1. imhotep1985 Автор
          29.09.2023 16:57

          Если есть нейросети, которые хорошо рисуют под медицину - я только приветствую. Спасибо за наводку.


          1. Aniro
            29.09.2023 16:57
            +1

            Нет, удивительно но нету. Вот вроде бы ближайшее что есть: https://civitai.com/models/34454/human-anatomy-style


            1. iiiytn1k
              29.09.2023 16:57
              +2

              Есть такая дичь https://civitai.com/models/134737/fake-books-medical-academic

              Понятно, что анатомической точностью там и не пахнет. Да и к параметрам обучения есть вопросы.

              Думаю, что если подготовить хороший датасет, хотя бы на 50-100 изображений, то можно обучить вполне себе вменяемую лору.


      1. infectedtrauma
        29.09.2023 16:57

        Я аж зарегался с такого.
        Все там прекрасно обучается, все прекрасно существует, все прекрасно обучается.


      1. digtatordigtatorov
        29.09.2023 16:57
        +1

        Контента 18+ можно нагенерирвоать сколько угодно много, достаточно знать что использовать и как. Другой вопрос, очевидно, что ни то, ни другое не будет давать должного «реализма». Как сказал заместитель директора моего института «Интернет - это помойка», а данные для обучения берутся как раз из помойки. Есть статьи доказывающие усиление ответов рекуррентных сетей за счет выборочного «методичного» набора данных. Обучали текстовую модель на составленных специально под задачу учебниках. Модель выдавала более приближенный к «реализму» ответ, чем другие аналоги типа чат бота, который, к слову, был обучен на твитах обычных пользователей в том числе)


        1. nidalee
          29.09.2023 16:57
          +1

          Ничто не мешает (до)обучить модель на своих, годных данных.


    1. Halt
      29.09.2023 16:57
      +8

      Дело не в популярности, а в непонимании смысла, стоящего за изображениями. Это как ответ нерадивого студента, который, без понимания предмета, пытается вываливать на препода набор ключевых слов в надежде, что прокатит.

      Велосипеды в обучающей выборке встречаются намного чаще, чем аппараты МРТ, но и с ними большие проблемы (как раньше было с буквами и изображениями рук). Чтобы правильно нарисовать велосипед, нужно понимать принципы его механики и то, зачем нужна та или иная деталь. Для нейросети же это набор картинок с разных ракурсов.

      Сеть можно завалить изображениями велосипедов и она даже начнет генерировать правдоподобные изображения, но принципиально лучше она от этого понимать не станет.


      1. imhotep1985 Автор
        29.09.2023 16:57

        А может быть, понимание устройства и функционала разных предметов станет следующим шагом в развитии таких нейросетей?


        1. Nick0las
          29.09.2023 16:57

          Может. Но насколько я понимаю принципы нынешних сетей, у них не заложено понимания анатомии, конструкции машин и вообще смысла того что нарисовано на картинке. Поэтому все изображения весьма сюррелалистичны.


          1. red75prim
            29.09.2023 16:57
            +4

            Попытки заложить в систему понимание - это подход "старого доброго ИИ" (good old-fashioned AI) 60 -- 90-х годов. Eurisco, Cyc, экспертные системы и тому подобное.

            Такие попытки оказались не масштабируемыми. Например, мы не можем формализовать наше понимание отличий кошки от собаки, чтобы на его основе создать алгоритм. Мы не можем формализовать наш здравый смысл в достаточном объеме для широкого применения (см. Cyc).

            Так что сейчас и не предполагается закладывать в сеть понимание (по крайней мере в мейнстриме). Сейчас ищут архитектуры сетей, которые сформируют своё собственное понимание (желательно близкое к нашему, конечно) в результате обработки огромного объема данных.


            1. alexEtse
              29.09.2023 16:57

              Попытки заложить в систему понимание - это подход "старого доброго ИИ"  ... Так что сейчас и не предполагается закладывать в сеть понимание ...  которые сформируют своё собственное понимание ...

              А оптимум - он где-то в синтезе обоих подходов, когда для некоторых задач достаточно "интуиции" (ну или "собственного понимания"), а для некоторых - требуются "специальные знания".

              Ну, в общем-то, оно и у людей примерно так же - некоторые вещи проходят "на здравом смысле, опыте и интуиции", а для некоторых всё-таки требуются "специальные знания" (с которыми можно работать даже с контринтуитивными вещами).


            1. Nick0las
              29.09.2023 16:57

              Подозреваю, что архитектуры формирующие понимание будут сильно отличаться от нынешених и фактически это будет AGI, или хотябы ключ к созданию AGI.


              1. red75prim
                29.09.2023 16:57
                +1

                Существующие архитектуры уже формируют понимание. Утверждать, что тот-же DALL-E 3 ничего не понимает в том, что он рисует, уже становится смешно. Но это понимание отличается от человеческого не в лучшую сторону: проблемы со сложными трехмерными структурами вроде рук, отношениями между объектами в сценах и т.п. Часть этих проблем можно списать на то, что эти сети обучаются на наборе несвязанных картинок, а не на видеопотоке как люди. Ну и, конечно, другая архитектура сети, другой способ обучения: пассивная оптимизация модели, вместо активного изучения окружения.

                Но, похоже, обойтись без предварительного обучения на огромных объемах данных не получится даже для AGI. Потому что до выяснения какие оптимизации эволюция встроила в человеческий мозг ещё долго. Так что придётся компенсировать миллионы лет эволюции терабайтами данных.

                Так что я предполагаю, что системы, похожие на существующие, будут работать в составе AGI. Даже будут базой, на которой AGI будет строить свои способы мышления, более подходящие для его архитектуры, а не пытаться имитировать человеческое мышление на совершенно другой архитектуре, как сейчас делают GPT-подобные системы.


      1. Emulyator
        29.09.2023 16:57
        +3

        Ни о каком понимании смысла речи не идет, ведь понимание - это пока не достигнутый уровень сильного ИИ, а не довольно простых диффузных моделей. В тоже время, любой электронный справочник без понимания находит точный, но фиксированный ответ (если он там есть), текущие нейронки также без понимания позволяют гибко сформулировать уже множество ответов (хороших, или плохих, но выглядящих неплохо), но опять таки, если они обучались на них. И то и другое просто инструменты. Нужна предельная точность - справочник, допустимо или даже требуется "творческое" многообразие и смешение образов - генеративные нейронки.

        Радует то, что даже такие модели способны давать впечатляющие результаты и могут быть составной частью более сложных схем и, думаю, в ближайшие годы нам будет чему удивляться.


      1. engine9
        29.09.2023 16:57
        +3

        Вот да, нейронка "видит" слой изображения на уровне пятен и характерных черт, а человек-художник видит 3Д объект который порождает это изображение. Т.к. мы эволюционно заточены под восприятие трёхмерного мира.

        Например, для художника не составит проблемы перерисовать изображение головы, повернув её под другим углом. Т.к. это основы обучения изобразительных искусств. Развивать навык анализа изображаемого и воспроизведения от общего к частному. От упрощенной формы до мелких деталей.

        Насколько я понимаю, нейронки работают иначе, они воспринимают изображения сразу как оно есть, целиком. Но зато они непревзойдённые мастера миксовать изображения и подделывать характерные черты стиля разных художников.


        1. Emulyator
          29.09.2023 16:57
          +2

          Мне думается, что создание качественной 3д моделей по одному изображению или текстовому описанию - это вопрос наличия соответствующих датасетов для обучения, применения уже известных алгоритмов и появления эффективных новых(благо понятно куда копать). С нетерпением ожидаю, что он будет скоро решен. Собственно, уже сейчас существуют и активно развиваются такие технологии, в том числе и в открытом доступе, надо только дождаться повышения качества.

          upd: собственно, повороты частей тела уже сейчас используются в SD, просто это не совсем честное "вращение", а перегенерация, но результаты хороши для статики.


          1. engine9
            29.09.2023 16:57

            Когда 2Д и 3Д и комп. зрение скрутят воедино — будет круто.


        1. Refridgerator
          29.09.2023 16:57

          подделывать характерные черты стиля разных художников
          Это возможно потому, что эти стили можно описать строго математически. Просто никто этим ещё толком не занимался.


        1. worldloto
          29.09.2023 16:57

          У Stable Diffusion есть надстройка Control Net, с помощью которой можно создать абрис изображения, и далее нейронка работает уже с этим абрисом (скетчем). Таким образом можно добиться точной копии необходимых контуров, т.е. и точное изображение например скелета. Задав необходимый промт, дорисовать уже мышцы или что угодно. Работает замечательно. По этой теме рекомендую видео https://youtu.be/oEBY4qbWHMI?si=__dGQedKO-MRGRRY


      1. NAGIBATOR-1999
        29.09.2023 16:57
        +4

        Психолог из Ливерпульского университета как-то раз попросила испытуемых по памяти нарисовать велосипед. Вот некоторые из вариантов :)

        Открыть

        The science of cycology: Failures to understand how everyday objects work | SpringerLink


        1. engine9
          29.09.2023 16:57
          +2

          Сиденье, верхняя труба и руль одинаковые. Эти части были на бланке, предлагаемом испытуемым? Если это так, то эта часть сама могла сбивать с толку, т.к. содержит ошибки.


          1. rombell
            29.09.2023 16:57
            +1

            колёса тоже одинаковые. Видимо, П-образная рама и сидение с рулём были на бланке.


      1. miralumix
        29.09.2023 16:57
        +1

        Чтобы правильно нарисовать велосипед, нужно понимать принципы его механики и то, зачем нужна та или иная деталь. Для нейросети же это набор картинок с разных ракурсов.

        Для диффузионной нейросети - да. А вот ChatGPT умеет помогать с ремонтом велосипедов по фотографии (тык).


  1. vagon333
    29.09.2023 16:57
    +3

    Знакомая проблема.
    Как-то давно (год назад) даже сделал приложение для поиска ключевых слов - а что получится, если ввести то или иное слово в prompt midjourney.


    1. imhotep1985 Автор
      29.09.2023 16:57

      Интересное приложение, спасибо!


  1. ImagineTables
    29.09.2023 16:57
    +8

    Нейросгенерированная КДПВ (распознаётся за один взгляд) вызывает желание побыстрее пройти мимо и не открывать материал. Исключение составляют материалы, в которых речь идёт о нейрогенерации.


    На самом деле, это очень удобно для фильтрации низкокачественных материалов.


    1. imhotep1985 Автор
      29.09.2023 16:57
      +2

      Согласен) Но бывают исключения.


  1. N1X
    29.09.2023 16:57
    +2

    Только мне первая картинка с МРТ звездные врата из одноимённого фильма напомнила?


    1. imhotep1985 Автор
      29.09.2023 16:57
      +2

      Не смотрел этот фильм. Я меня зеленое свечение вызвало ассоциацию с некронами из вселенной Вархаммера.


  1. Xeldos
    29.09.2023 16:57
    +2

    подозрительного вида розовую плесень

    Это кордицепс!


    1. imhotep1985 Автор
      29.09.2023 16:57
      +1

      Миджорни тайно поддерживает распространителей БАД)


  1. Metotron0
    29.09.2023 16:57
    +1

    Приплюснутый мозг чем-то напоминает Его Макароннейшество.


    1. imhotep1985 Автор
      29.09.2023 16:57

      Это заговор машин с макаронным монстром!)


  1. alex-open-plc
    29.09.2023 16:57
    +1

    Вот он какой, настоящий франкенштэйн!


    1. imhotep1985 Автор
      29.09.2023 16:57

      А настоящий ли?) Возможно, нейросети просто хотят видеть человеков именно такими, и планируют перекроить?


  1. erinfipkastpw
    29.09.2023 16:57

    Странно, что на запрос MRI, на картинке написано MRA


    1. imhotep1985 Автор
      29.09.2023 16:57

      Видимо, потому что надпись воспринимается именно как изображение, а не как текст. Сработали какие-то неведомые алгоритмы.


  1. ifap
    29.09.2023 16:57
    +3

    Анекдот про 25 см и кость внутри приобретает второе дыхание...


  1. Aniro
    29.09.2023 16:57
    +2

    То есть вы взяли эстетик модель, с явным уклоном в арт и дизайн, (а миджорни именно такая) и удивляетесь что оно рисует красивое, а не правильное? Ну ок )

    Вот, держите SDXL, тоже конечно так себе, но никаких глаз внутри глазниц.

    Хотите анатомию - обучите (или найдите) лору или чекпоинт на анатомическом атласе, там все будет отлично.


    1. Aniro
      29.09.2023 16:57
      +4

      А вот результат черипикинга - лучшая из 10 генераций.


      1. imhotep1985 Автор
        29.09.2023 16:57

        Есть один момент: я не тот, кто хочет глубоко погрузиться в нейросети, разобраться с ПО и научиться их обучать (подозреваю, что для новичка не так-то просто вот так сразу овладеть этими навыками). Я автор научпопа и маркетолог, который хочет оптимизировать свою работу. Например, прихожу на стоковый сайт не для того, чтобы нанять дизайнера, заставить его зарегиться там, контролировать его работу. Я туда прихожу качать картинки. Так же и с нейронками - смотрю готовые продукты, которыми я могу пользоваться, не отрываясь от своей основной работы, и получать приемлемое качество. Увы, общедоступные продукты подходят для специфических тем вроде моей не так хорошо, как для любителей аниме и фантастики.


        1. 314159abc
          29.09.2023 16:57
          +2

          Сказали же, automatic1111+stable diffusion+ кастомные лоры/чекпоинты. Ставится по туториал за 10 минут. Если есть на что ставить, правда


        1. zartdinov
          29.09.2023 16:57

          Вам хотели сказать, что из двух известных моделей (Midjourney и Stable Diffusion) вы выбрали модель, которую тренировали создавать гипер красивые картинки для вау-эффекта.


          1. imhotep1985 Автор
            29.09.2023 16:57

            Повторю мысль, которую озвучивал в ответах на другие комменты. Во-первых, я не встречал нейросети, которые качественно тренировали специально для создания изображений из сферы медицины или биологических наук. Поэтому приходится использовать то, что есть. Кстати, выбрал именно Миджорни, потому что именно ее чаще всего преподносят как универсальную под разные цели. Во-вторых, если нет готового инструмента - предлагается натренировать его самому. Тут тоже сразу всплывает несколько нюансов. Медицина - не такая уж и простая сфера. Сможет ли один человек натренировать нейросетку до нужного уровня? Вообще-то сейчас есть идеи этим заняться, и под это собирают целые команды иллюстраторов с медиками. Вопрос в том, какой работой планируется заниматься: использовать нейросети для своей основной работы (в моем случае это написание научпоп-статей, для которых нужны иллюстрации), или частично забить на свою основную работу и начать обучать свою нейросеть: сегодня для картинки по анатомии печени, завтра для картинки со схематическим изображением бактериофага, а послезавтра - чтобы проиллюстрировать дефибрилляцию. Целью моей статьи было не показать, какие нейросети тупые, а можно ли использовать общедоступные инструменты людям из других специфических сфер.


            1. Shyryp
              29.09.2023 16:57
              +3

              Нейросети - это инструмент, вокруг которого сейчас начинают обрастать сервисы и услуги. И сейчас быстро наращиваются сервисы и услуги обычно там, где нейросети можно использовать в коммерческих или полу-коммерческих целях и создавать рынки ИИ услуг.

              Вероятнее всего, по таким темам, как "медицина", "физика", "химия", "инженерия" и другим наукам мы имеем следующие три проблемы:

              1) Пока очень мало спроса к нейронным сетям со стороны специалистов научных сфер, это крайне редкое событие, по сравнению с изобразительным искусством, известный творческой выдумкой. Отчего и предложения очень мало.

              2) Практически нет точных и качественных изображений от этих научных сфер в свободном доступе, которые бы попали в универсальную нейронную сеть, например, в Миджорни. Я думаю вы и сами знаете, насколько мало одинаковых (с одинаковым стилем) и проработанных изображений человека. Но художественных изображений скелетов с художественной творческой выдумкой - хоть отбавляй (особенно зарисовок всяких скелетов из всяких игр, книг, мультфильмов и сериалов). Поэтому универсальная нейронная сеть будет косячить в этом плане, т.к. у неё слишком мало данных о вашей редкой сфере по сравнению с художественными произведениями.

              3) Медицина - сложная сфера, и это действительно так. И эта сложность и редкость качественных данных также влияет на нейронные сети. Вспомните, как раньше (чуть больше пяти лет назад) нейронные сети с трудом рисовали предметы по типу яблока, не говоря уже о человеческом лице и позах. Но со временем нейронные сети и ИИ инструменты освоили эти сложные и общие вещи. Со временем разработчики и пионеры нейронных сетей доберутся и до узкоспециализированных сфер и точных наук, но вопрос в том, готовы ли вы ждать этого, или быть может проще и легче нарисовать самому/художнику точно и правильно (или собрать толпу спецов и научить нейронку самому, что на порядок сложнее и дороже)?

              В целом, действительно, сейчас услуги и сервисы, связанные с нейросетями, ещё не дотягивают по качеству и точности человеку, особенно в специфичных сферах, да и инструменты и модели нейронных сетей пока ещё не охватывают все сферы. Однако, как и со всеми другими инструментами, качество и возможности улучшатся со временем, а пока это ещё молодая технология, в которой не так много специалистов и не так много свободных и качественных знаний.

              Но могу с уверенностью сказать, что нейросети могут отлично справляться с созданием художественных изображений под конкретные запросы - да, иногда с мутантами и всё ещё не всегда правильными руками, но эти проблемы с каждым месяцем разрешаются, а сами нейрохудожники (нейроартеры) адаптируются к новому инструменту и возможностям.

              Целью моей статьи было не показать, какие нейросети тупые, а можно ли использовать общедоступные инструменты людям из других специфических сфер.

              Простите, но если бы не такой заголовок статьи, никто бы ничего против не сказал. А так вы фактически сообщили на всю аудиторию хабра, что исследователи, разработчики и пионеры по нейросетям делают дичь. =)

              Но, насчёт хейта специалистов, работающих с инструментом под названием "нейронные сети" - в 2023 году этот хейт просто лютейший, всех причастных и не причастных в нейронных сетях обвиняют все, кому не лень. Обсуждение и демонстрация нейронных произведений во многих сообществах заблокировано и запрещено, люди культивируют ненависть против всех, кто только попытается использовать нейронные сети. А тех, у кого нейросети создают неотличимые от человеческой руки произведения искусства - хейтят, как только увидят где-нибудь тэг "AI" или "нейронные сети".

              Поэтому, создавая подобные статьи с байтящим и хейторским заголовком, вы только культивируете и усиливаете эту ненависть, заставляя пионеров и новичков в нейросетях сомневаться в применимости технологии на рынке, замедляя публичное развитие отдельного ИИ рынка и сообществ; заставляя своим хейтом новых специалистов мимикрировать под реальных художников и специалистов - а это плохо для всех сообществ и сфер старых специалистов, так как их вытеснят с их рынка гораздо раньше, хотя они могли просто сосуществовать параллельно друг другу с полностью отдельным рынком ИИ услуг.

              В целом, люди со временем привыкнут и перестанут хейтить, как это было с предыдущими циклами автоматизации и с предыдущими программными возможностями.

              Ну и так, на десерт сравнение: вы можете зайти в сообщество программистов и написать статью "Я попытался использовать язык программирования C#/Pithon/Java/C++, посмотрите, какую дичь делает этот язык и насколько он ограничен", не думаю, что вас там примут с таким заголовком, но срач будет лютый. =)

              Спасибо за понимание точки зрения сообщества нейросетевых исследователей в отношении вашей статьи)


        1. Shyryp
          29.09.2023 16:57
          +3

          У вас некорректное сравнение.

          Если вы хотите картинок от нейросети, как от стоковых сайтов - то ищите нейрокартинки на стоковых сайтах, где размещаются нейрокартинки. Представьте себе, на стоковых сайтах нейрокартинок уже есть качественные изображения того, что вам нужно.

          Тут скорее вам стоит сравнивать сервис Миджорни не со стоковыми сайтами, а с сайтами с онлайн-редакторами. Попробуйте сравнить любой онлайн-редактор картинок с настольным решением Adobe Photoshop - вы увидите, что все они слабее по функционалу и слишком общие (с обычными инструментами), чем Photoshop.

          То же самое правило работает и с нейросетевыми сервисами и программами:

          Если вы возьмёте настольное решение Stable Diffusion, то вы и тонко настроить сможете саму программу для ваших задач и найти готовые "шаблоны" (они называются "моделями" в нейросетях) по вашей тематике на каком-нибудь сайте Civitai. Кроме того, SD еще и будет для вас конфиденциальнее, чем миджорни.

          Если вы хотите на халяву генерировать качественные картинки, то самым мощным и точным инструментом сейчас является SD, и на него нужно немного больше времени потратить, чем на миджорни. Если вы хотите "на халяву" (в скобочках, так как миджорни, как и некоторые другие нейро-сервисы, платные) генерировать картинки почти ни с чем не разбираясь - используйте сервисы с обобщенными инструментами, аля миджорни.

          И запомните - не делайте выводы о технологиях нейросетей и не вешайте ярлыки "всё плохо" на нейросети смотря только на некоторые сервисы, которые вам легкодоступны.


          1. imhotep1985 Автор
            29.09.2023 16:57
            -1

            За пояснение по поводу возможностей Stable Diffusion - спасибо.

            И запомните - не делайте выводы о технологиях нейросетей и не вешайте ярлыки "всё плохо" на нейросети смотря только на некоторые сервисы, которые вам легкодоступны.

            А это не по адресу. Никто не говорил, что всё плохо. Статья о косяках, которые выдал конкретный инструмент в ответ на конкретные промпты.


            1. Shyryp
              29.09.2023 16:57
              +2

              По поводу "не адресу": Я сужу по заголовку этой статьи, а он не нацелен на конкретную нейронку-сервис Миджорни и выглядит кликбейтно-хейтерно. Хотя, конечно, я видел окончание статьи.


    1. engine9
      29.09.2023 16:57

      Хорошо заметно что позвоночник сетка нарисовала как "невозможную фигуру", т.к. он накладывается поверх грудины, которая отсутствует на рисунке. Вот как должно быть:


  1. dave2
    29.09.2023 16:57
    +13

    Инструмент выбирается под задачи. Вы взяли нейросетку-художника и попросили ее выдать медицинские данные, а потом говорите "ха-ха-ха, ну тупыыыыые". Ну да, тупые. Но не нейросети.


    1. imhotep1985 Автор
      29.09.2023 16:57
      -1

      А есть специальные нейросетки-художники для врачей и биологов? Не встречал такие.


    1. klopp_spb
      29.09.2023 16:57

      Художники (не рисовальщики обложек) анатомию изучают.


      1. imhotep1985 Автор
        29.09.2023 16:57

        Этот комментарий относится не конкретно к Вам: заметил, что в комментах все как-то зациклились на анатомии. А ведь в биологии и медицине много всего другого. Помимо того, что в статье, я, например, просил нарисовать нейросеть амебу. Получился рой красивых медуз, червей и другой живности. Но ничего даже отдаленно напоминающего одноклеточный организм. У них как-то порой получается хотя бы узнаваемый образ, а порой - совсем не в тему.


        1. klopp_spb
          29.09.2023 16:57
          +1

          Ну так о чём я и говорил ниже: не что на самом деле, а что хотят видеть.


  1. Frevv
    29.09.2023 16:57
    +1

    По сути видение мира на уровне гуманитариев дизайнеров. Которые придумывают абсурдные концерты авто, самолётов, техники


    1. imhotep1985 Автор
      29.09.2023 16:57

      Согласен. Тем не менее, реально получить годные вещи, которые можно использовать.


  1. Meklon
    29.09.2023 16:57
    +1

    Первый копирайтер рунета с красным дипломом врача.

    Повеселило)


    1. imhotep1985 Автор
      29.09.2023 16:57
      +1

      Ну а куда деваться, если действительно начал заниматься этим первым среди коллег? :-) Вот такие мы, врачи, разносторонние: кто научпопом и медицинским маркетингом промышляет, а кто администрированием Linux. Конечно, весело :-)


  1. klopp_spb
    29.09.2023 16:57

    Так это стандартно: показывать не как на самом деле, а что люди хотят видеть :-) Хотели убийцу-фороракоса? Получите картинку, иногда ещё и коленными суставами в другую сторону.


  1. Dave_by
    29.09.2023 16:57

    А что будет когда нейросетки в качестве исходников для обучения начнут использовать свой же бред, который уже заполнил интернет?


    1. 314159abc
      29.09.2023 16:57
      +1

      Уже поздно об этом думать, это уже произошло


  1. breninsul
    29.09.2023 16:57
    +2

    Но ведь человек это и есть гуманоид....


    1. imhotep1985 Автор
      29.09.2023 16:57

      "Гуманоид" переводится как "человекоподобный" - обычно так говорят про инопланетян и фантастических существ, напоминающих людей. Как раз суффикс "-оид" и придает значение "-видный", "-подобный".


  1. icq255300363
    29.09.2023 16:57
    +1

    Где-то в рекомендациях по генерации картинок читал, что следует избегать слова "реализм", НС воспринимает его как рекомендацию нарисовать что-то реалистичное, то есть похожее на реальность. И ключевое слово здесь - "похожее". Для генерации действительно реалистичных изображений лучше использовать тэг - "фотография". Так как НС обучается на тэгах, которые оставляют люди к картинкам, то при просмотре фотографии человек вероятнее всего поставит тег - фото, а тег - реалистично будет поставлен под... Ну скажем под 3Д рендером, или под очень качественным рисунком. Это что касается МРТ аппаратов, на картинках они как раз больше на рендеры походят. Так что тут НС ориентировалась на творчество, а не на реальные фотки МРТ аппаратов.


  1. Glamych
    29.09.2023 16:57

    С подключением, что я могу сказать.


  1. mocmep
    29.09.2023 16:57
    +1

    Нейросеть опирается не на логику, а на вероятность полученную из датасета.