Исследовательская группа Microsoft Research представила генеративно-состязательную нейросеть, которая способна генерировать изображения с несколькими объектами на основе текстового описания. В отличие от более ранних подобных алгоритмов text-to-image, способных воспроизводить изображения только базовых объектов, эта нейросеть может справляться со сложными описаниями более качественно.


Сложность создания подобного алгоритма заключалась в том, что, во-первых, ранее бот был не способен в хорошем качестве воссоздавать все базовые объекты по их описаниям, и, во-вторых, не мог проанализировать то, как несколько объектов могут относиться друг к другу в рамках одной композиции. К примеру, чтобы создать изображение по описанию «Женщина в шлеме сидит на лошади», нейросеть должна была семантически «понять», как каждый из объектов относится друг к другу. Эти проблемы удалось решить, обучив нейросеть на основе открытого дата-сета COCO, содержащего разметку и данные сегментации для более 1,5 млн объектов.


Microsoft научила нейросеть рисовать сложные сцены по текстовому описанию

В основе алгоритма лежит объектно-ориентированная генеративно-состязательная нейросеть ObjGAN (Object-driven Attentive Generative Adversarial Newtorks). Она анализирует текст, выделяя из него слова-объекты, которые необходимо расположить на изображении. В отличие от обычной генеративно-состязательной сети, состоящей из одного генератора, который создает изображения, и одного дискриминатора, который оценивает качество сгенерированных изображений, ObjGAN содержит два различных дискриминатора. Один анализирует, насколько реалистичен каждый из воспроизведенных объектов и насколько он соответствует имеющемуся описанию. Второй определяет, насколько вся композиция реалистична и соотносится с текстом.


Предшественником алгоритма ObjGAN стал AttnGAN, также разработанный исследователями Microsoft. Он способен генерировать изображения объектов по более простым текстовым описаниям. Технология преобразования текста в изображения может применяться для помощи дизайнерам и художникам в создании эскизов.


Алгоритм ObjGAN находится в открытом доступе на GitHub.


Больше технических подробностей.

Комментарии (14)


  1. hfinn
    24.06.2019 11:11

    Идёт к тому, что туда сценарий или книга, а оттуда — сразу кино.


    1. Alexey2005
      24.06.2019 11:45

      Лучше бы наоборот, чтоб нейросети скормить фильм — а на выходе сценарий или лучше даже новеллизация. Но, похоже, генерировать приличный текст нейросетям куда сложнее, чем картинки.


    1. wrietr
      24.06.2019 12:01

      Нет, не подумайте что у меня больное воображение, но просто представьте какие она будет рисовать картины для женских романов. С их синонимами и прочим я думаю это превратиться в видео не для слабонервных.


    1. amarao
      24.06.2019 12:38

      Итак, книга...


      Хотя Игра стеклянных бус технически и тематически бесконечно разрослась и, с точки зрения требований, предъявляемых к играющим, превратилась и высокое искусство и строгую науку, при жизни великого базельца ей все же недоставало весьма существенного. Каждая партия была тогда неким нанизыванием, противопоставлением и группировкой сконцентрированных представлений из многих областей интеллектуального и эстетического, быстрым извлечением из памяти надвременных ценностей и форм, виртуозным и быстротечным полетом через царство духа. Лишь существенно позже из духовного инвентаря воспитательной традиции, и в особенности из обычаев и преданий паломников в страну Востока, в Игру было привнесено понятие контемпляции. Всеми было признано нежелательным положение, при котором фокусники-мнемотехники, не обладавшие никакими другими достоинствами, виртуозно разыгрывали блистательные партии, поражая и сбивая других участников быстротой бесконечных перечислений. Со временем подобная виртуозность была подвергнута строгому запрету, а созерцание стало одним из важнейших условий Игры; более того, для слушателей и зрителей Игры созерцание превратилось в нечто основное. Это был поворот к религиозному.

      Так и представляю себе генерацию картинок по книге...


      1. lanseg
        24.06.2019 17:11

        А что за нейросеть сгенерировала этот текст? Выглядит связно, конечно, но читаемость будто у философов начала века.


        1. amarao
          24.06.2019 17:22
          +1

          Эта нейросеть называется Герман Гессе, а результат её работы — Игра в бисер


          При том, что неподготовленному читателю она может показаться слишком абстрактной, в книге разбирается довольно актуальный вопрос символического перфекционизма. При том, что книга была закончена до появления первого компьютера, она очень серьёзно проходится по мотивации каждого первого поста про git workflow или использования паттернов в объектно-ориентированном программировании.


          1. lanseg
            24.06.2019 17:30

            То ли радоваться, что я угадал про философа, то ли огорчаться из-за того, что я не сообразил сразу поискать по цитате.


    1. vikarti
      28.06.2019 11:27

      И иски от всяких товарищей считающий что например «актеры» не того цвета и не той ориентации что им нравится.

      И при этом — желание других пользователей допустим иметь в качестве входа — Гамлета а в качестве выхода допустим «Гамлет XXI век» Юрия Кары, только с персонажами говорящими на квенья или валирийском.


  1. mdyakovaml
    24.06.2019 12:01

    Еще лет 10 и нейросети будут экранизировать книги без участия людей.


    1. amarao
      24.06.2019 12:48

      И смотреть тоже. Очень удобно. Сейчас в интернете можно наблюдать как одни роботы (гейтвеи) пишут для других роботв (поисковики) тексты, чтобы третьи роботы (арбитры рекламных сетей) продали место четвёртым роботам (рекламным агентствам) возможность показать рекламу, которую будут смотреть пятые роботы (кликеры).


    1. Tachyon
      24.06.2019 13:04

      Еще лет 10 и нейросети будут экранизировать книги без участия людей.
      И снимать порнуху по такому же принципу…


  1. smer44
    24.06.2019 14:59

    Вообщем у сеток проблемы выделять и валидировать крупные абстракции, написать связное предложение или нарисовать отдельный элемент проще, а вот скомпоновать чтоб всё вместе — много предложений или картинка в целом имело смысл там начинается ужас. Из сценария сделать кино это ещё куда ни шло, а вот сделать сам сценарий. А чтоб заставить сетку всё таки уметь так делать нужны чрезмерно большие расчёты. Пройдёт лет 10 и вы увидите что сетки это только для первоначальной сенсорики или генерации конечных образов, а системы работающие с настоящим смыслом — там другие архитектуры, у меня даже есть предположения какие)))


  1. Googlist
    24.06.2019 22:20

    iPhuck 10 уже скоро и на вашей улице!


  1. raamid
    25.06.2019 01:20

    Может хоть нейросеть сделает Игру Престолов по нормальному.