Откуда появилась змея на последнем рисунке? Почему она кусает человека? На втором и третьем рисунках изображён один и тот же человек? Ответы на эти вопросы читатель получает из общего понимания сюжета, осмысливая подписи к рисункам, фразы героев и смысловые переходы от одной картинки к другой

Нейросети демонстрируют удивительные успехи в различных задачах. Они обошли человека по точности распознавания лиц, чтению по губам, игре в некоторые настольные игры, диагностированию некоторых болезней и вождению автомобиля в темноте. С каждым днём количество «побед» нейросетей над человеком увеличивается. Но есть специфические задачи, в которых Искусственный интеллект даже близко не может подобраться к человеческому уровню, так что ему не остаётся ничего иного, кроме как признать своё поражение — и отступить.

Одна из таких непосильных задач — понимание комиксов, рассказов в картинках. Этот вид искусства находится на стыке литературы и изобразительного искусства. Он отличается тем, что активно обращается к воображению читателя. Человек должен домысливать то, что происходит в рисованной истории. Оптимистичные учёные из Университета Колорадо и Университета Мэриленда (США) предположили, что смогут обучить этому нейросеть, но просчитались.

Рассказы в картинках — древний жанр искусства, который ведёт свою историю со Средневековья. Он получил широкое распространение в современной массовой культуре в конце 19 века и в 20 веке, став прообразом мультипликации и кинематографа. Это практически одно и то же. Как говорил Скотт МакКлауд, автор книги «Суть комикса», пространство для комикса значит то же, что время для фильма. В английском языке слово "cartoon" даже обозначает и мультфильм, и комикс одновременно, потому что эти понятия близки по смыслу.


Страница из книги Скотта МакКлауда «Суть комикса»

В серии картинок автор может рассказать от начала и до конца любую историю, от развития трёхсотлетней межгалактической войны до семейного ужина. Ключевая особенность комикса и настоящее мастерство художника заключается не в том, что он показывает, а в том, что скрыто. Зрителю приходится догадываться. Воображение рисует красочные картины, которые автор комикса специально оставил для него, для воображения.


Только представьте, что увидела героиня этого комикса!

В этом и есть вся прелесть комиксов. Воображение.

Исследователи из Университета Колорадо и Университета Мэриленда (США) попытались обучить нейросеть заполнять смысловые пробелы (gutters) между отдельными рисунками комикса, как это делает воображение человека. Для обучения нейронной сети составили обширную базу комиксов: примерно 1,2 млн рисунков из 4000 публично доступных книг с рисованными историями. Все они вышли в 1938?1954 гг. Собранная база COMICS размером 120 ГБ через несколько дней будет опубликована в открытом доступе на GitHub. Судя по всему, это первый в истории набор данных с комиксами для обучения нейросетей.

Статистика набора данных
Книг — 3948
Страниц — 198 657
Рисунков — 1 229 664
Текстовых полей — 2 498 657

Чтобы проверить понимание контекста и сюжета комиксов, исследователи разработали три задачи по предсказанию текста и объектов на рисунках: text cloze, visual cloze и character coherence. Хотя задачи отличались по содержанию, но во всех случаях задачи имели одинаковый формат: нейросеть получала в качестве контекста несколько предшествующих рисунков и должна была оценить наилучший из вариантов для предсказания следующего текста (text cloze), картинки (visual cloze) или соответствия текста конкретному персонажу (character coherence). Выбор осуществлялся из трёх вариантов текста и рисунков и из двух вариантов соответствия фраз персонажу.

Понимание смысла комиксов определялось по тому, каким образом нейросеть предсказывает следующий рисунок в сюжетной линии и текст на нём. Для тестирования было разработано четыре модели: Text-only, Image-only, NC-image-text и Image-text. Первая нейросеть получала информацию только о тексте на картинках. Вторая нейросеть получала информацию только о визуальных характеристиках рисунков. Третья и четвёртая модели отличаются лишь в деталях, но обе они получали информацию и о тексте, и о визуальных характеристиках рисунков.


Применение архитектуры Image-text к задаче text cloze. Предварительно усвоенные в процессе обучения фичи изображения сочетаются с текстовыми фичами в иерархической архитектуре для формирования представления контекста, который затем использован для оценки текстовых кандидатов, то есть для выбора наиболее подходящего из трёх вариантов фразы героини

После обучения нейросети проверили на трёх вышеупомянутых задачах по предсказанию следующего рисунка в комиксе. Как видно из таблицы с результатами, нейросети очень плохо справились с поставленной задачей, показав результат гораздо хуже, чем у человека, хотя и выше, чем случайная вероятность (33% и 50%, соответственно).



Судя по всему, понимание смысла комиксов и характерных смысловых пробелов между отдельными кадрами остаётся уникальной задачей, решить которую способен только человек. Искусственный интеллект обыгрывает людей в интеллектуальную викторину, шахматы и го, гораздо лучше распознаёт объекты на видео и обрабатывает речь, умеет предсказывать звуки и генерировать произведения искусства в стиле известных художников, но понять комиксы он пока не в состоянии. У него нет воображения.

Научная работа опубликована 16 ноября 2016 года в открытом доступе на сайте arXiv (arXiv:1611.05118).
Поделиться с друзьями
-->

Комментарии (22)


  1. jam31
    24.11.2016 22:47

    По-видимому, все их проблемы начались с OCR. Они остановились на гугловском облаке и признают, что, в конечном счёте, проблемы с распознаванием остались.


  1. Valerij56
    24.11.2016 23:11
    +3

    Кажется, найдено кардинальное отличие сильного ИИ от слабого.


    1. eugenius_nsk
      25.11.2016 06:18

      Умение читать комиксы?


      1. ankh1989
        25.11.2016 09:11

        Почему бы и нет. Чтобы понимать комиксы надо знать много чего с ними связанного — нужно представить модель, посмотреть на картинку и понять, что в эту модель не вписывается, после чего сказать "ха ха." Вот нейросети могут что то распознать, а с построением модели пока сложно — не очень понятно как это делать.


      1. Valerij56
        25.11.2016 10:45

        Воображение.


  1. Bringoff
    24.11.2016 23:43
    -1

    обошли человека по точности распознавания лиц

    Кажется, я что-то пропустил. Где можно почитать?


    1. buglife
      25.11.2016 01:20

      Возможно это: https://geektimes.ru/post/282958/


      1. Bringoff
        26.11.2016 17:23

        Слишком громкое заявление, как для такой статьи. Протестировали на 10% от 1800 фото, то есть, на секунду, 180. Выборка вообще нерепрезентативна. Плюс нигде не говорится о том, что ИИ распознал что-либо лучше человека. Мне лица преступников, приведенные там, тоже показались подозрительными. Ну, такое, в общем. Автор ляпнул ради красеого словца без каких-либо пруфов. А кто-то сразу кинулся мой вопрос минусовать — скайнета дождаться не может никак, видимо :)


  1. Barafu
    25.11.2016 00:06
    +3

    Я первый раз увидел аниме в достаточно зрелом возрасте, и отчётливо помню, как тоже нихрена не понял. Какие-то пятна и ежесекундно перекашивающиеся рожи… Так что выборка нужна побольше, для определения самих приёмов передачи информации.


    1. GreyhoundWeltall
      25.11.2016 08:47
      +1

      Это же — по сути — обычные мультики. Разве нет?
      Или речь все же о манге?


      1. Barafu
        25.11.2016 13:41
        +2

        Речь идёт о мультиках с изобразительными приёмами из манги. Не зная смысла за этими приёмами, невозможно понять, что имеется ввиду — что означает капля над головой персонажа или внезапное пропадание носа и рта, или внезапное пропадание фона? Только выучив смысл этих символов, можно начать понимать сюжет (который в 9/10 случаев не стоит этих усилий).


        1. GreyhoundWeltall
          25.11.2016 13:47

          Не сразу даже понял о чем речь…

          Мне действительно сложно судить, но я как-то сразу понял, что капелька — это «типа» капля пота. Или глаза, резко ставшие очень детализированными и слегка дрожащими — это (например) из-за слез.
          Все эти символы (не в манге, а в аниме) сопровождаются какими-то другими «опознавательными» знаками — например голосом, дрожью, позой и тд. То есть изначально непонятные символы становятся более понятными в «контексте».

          То есть то же самое, что и в комиксах — часть приходится додумывать, а часть — воспринимать именно «в контексте». И с этим у ИИ (пока) проблемы.

          Кстати наблюдение: там, где действительно есть что посмотреть, обычно не прибегают к таким «символам из манги», а используют более «классические» приемы. Впрочем «стоит посмотреть» это слишком субъективный параметр для такой оценки.


          1. Sychuan
            25.11.2016 18:14
            +1

            По-моему к этим приемам не прибегают уже лет 20.


            1. GreyhoundWeltall
              29.11.2016 10:14

              Я лет 5 (примерно) уже как не смотрел, поэтому не могу сказать.
              Но последнее что видел — использовало еще. В смысле использовало «гибрид» — классические элементы манги (капелька и крестик) и уже более понятные человеческие элементы (размахивание руками, крики, голосовая озвучка и тд).


        1. killik
          25.11.2016 15:59
          +2

          который в 9/10 случаев не стоит этих усилий
          — Справедливости ради, это относится к любому виду искусства, кроме разве что порно.


    1. Sychuan
      25.11.2016 18:15

      А гэги в американских мультфильмах от Ханны-Барберы и всяких безумных мультфильмов вроде «Шоу Рена и Стимпи» по вашему проще, чем аниме? Очень сомневаюсь


  1. redpax
    25.11.2016 01:33
    +4

    Человек угадывает отсутствующие сцены за счет своего жизненного опыта, он знает, что обычно бывает между картинками, нейронная сеть увы не располагает нужными данными и для построения прогнозов ей не достаточно данных.


    1. bondbig
      25.11.2016 12:18

      Напомнило «для осмысленного ответа недостаточно данных»(с)


  1. 3aicheg
    25.11.2016 04:08
    +5

    Видимо, у борцов против Скайнета и Матрицы вместо шифровальщиков будут художники по комиксам…

    image


  1. instalator
    25.11.2016 06:34
    +2

    Он смог, ему просто не понравились эти комиксы и он предлагал свой ход сюжета.


  1. Silvatis
    25.11.2016 10:48

    Полагаю, теперь капчи станут более увлекательными)


  1. mephistopheies
    25.11.2016 22:47

    конечно есть, удалите кто нибудь олизара