Устойчивое выражение «не суди книгу по ее обложке» предостерегает от оценки чего-либо или кого-либо по одному только внешнему виду. Но когда читатель видит книгу, это все равно происходит: знакомство обычно начинается с обложки. Именно она оставляет первое впечатление о содержании и начинает рисовать историю в сознании человека. Хорошие обложки просто созданы для того, чтобы по ним судили.

Люди отлично справляются с определением жанра, едва взглянув на визуальное оформление книги. Согласитесь, что выбрать кулинарную книгу, биографию или путеводитель, просто посмотрев на обложку – довольно легко. Тогда возникает интересный вопрос: может ли искусственный интеллект так же успешно судить о книге по обложке, как и человек?

Ответ на него попытались получить ученые из Университета Кюсю в Японии. Они поставили перед сверточной нейронной сетью (CNN) задачу изучить книжные обложки и определить категорию, к которой они относятся. Метод обучения оказался довольно простым: исследователи скачали более 13,5 тысяч обложек с сайта Amazon.com вместе с названием, именем автора и жанром книги. Помимо определения категории, этот набор данных может в дальнейшем пригодиться для обучения нейронных сетей распознаванию и анализу шрифтов и решению других задач, связанных с дизайном. В своем эксперименте ученые использовали только жанры, отбросив все остальные данные из набора. Нейросеть разбиралась в 20 возможных жанрах. Если книга повторялась сразу в нескольких категориях, ученые просто указывали самый первый.



Затем группа исследователей использовала 80% набора данных, чтобы обучить нейронную сеть распознавать жанр в зависимости от изображения на обложке. Нейросеть, которую они использовали в своем эксперименте, состояла из четырех слоев, в каждом из которых насчитывалось 512 нейронов. Вместе они учились определять корреляцию между дизайном обложки и жанром. Еще 10% набора данных ушли на проверку сети. На заключительном этапе использовались оставшиеся 10%, чтобы определить, насколько хорошо сеть может классифицировать незнакомые изображения.

Результат оказался довольно интересным. Алгоритм корректно определял наиболее часто встречающуюся ему тройку жанров в 40% случаях. Со всеми остальными жанрами точность составила порядка 20%. Это значительно лучше, чем просто случайность. Относительно корректная работа нейросети показывает, что классификация книг по обложкам реальная, хотя и трудновыполнимая задача.

Некоторые жанры оказалось легче распознать, чем другие. Например, туристические книги или книги о компьютерах и технологиях сравнительно легко поддаются определению, поскольку дизайнеры обычно используют схожие по смыслу изображения для обложки. Кроме того, ученые установили, что нейросеть с легкостью узнавала кулинарные книги, если при их оформлении используются фотографии еды.



Однако нейросеть начинала сомневаться, стоило только появиться на обложке фотографии повара или другие объекты, косвенно связанные с приготовлением блюд.

Биографии и мемуары также вызвали у нейросети затруднения: очень часто такие книги отправлялись в категорию исторических. Интересно, что для многих подобных книг вторичным жанром на Amazon.com оказывалась именно история. Поэтому нельзя сказать, что алгоритм ошибся на 100%.



Еще CNN перепутала детские книжки с комиксами и графическими романами, а также медицинские книги с учебниками по математике. Это неудивительно, учитывая определенное сходство между этими категориями. Ошиблась сеть и с разными по сути, но близкими по оформлению книгами по праву и религии. Обычно их обложки выполнены либо в одном цвете без каких-либо рисунков, либо с абстрактными изображениями.

В работе, представленной японскими учеными, есть один существенный недостаток. Они не сравнивали производительность их нейронной сети со способностью человека определять жанры по обложкам. Получился бы интересный эксперимент, который было бы легко организовать силами краудсорсинговых онлайн-платформ. И до тех пор, пока этот эксперимент не будет осуществлен, мы не узнаем, справляется ли искусственный интеллект с поставленной задачей лучше, чем человек. Но несмотря на это досадное упущение, независимо от того, насколько хорошо мы можем определять жанры по обложке, машины однажды смогут сделать это быстрее. Это лишь вопрос времени.

Тем не менее, результат этого исследования заслуживает внимания. Он может помочь дизайнерам улучшить свои навыки, когда дело доходит до книжных обложек. Можно пойти еще дальше и обучать технику проектировать обложки без участия человека. В будущем это может означать, что создание человеком дизайна обложки – еще одна задача, которая отправится в архивы истории.

Графический дизайн стал объектом для машинного обучения сравнительно недавно. Самый известный опыт практического применения нейронных сетей связан, в первую очередь, с распознаванием художественного стиля известных авторов картин и дальнейшим его переносом на другие изображения. Исследователи из Университета Кюсю преследовали похожую цель, но зашли немного дальше: они попытались выявить скрытый смысл, который кроется за стилем оформления. Если говорить о классификации, уже были попытки научить нейросети сортировать музыку, картины, тексты по жанрам.

Научная работа опубликована на arXiv.org (ArXiv:1610.09204 [cs.CV])
Поделиться с друзьями
-->

Комментарии (52)


  1. gionet
    08.11.2016 22:31
    +4

    Господи, что только ни придумают! (я про обложку и книгу в начале статьи)


    1. DaveDee
      09.11.2016 01:10
      +4

      Да это еще вроде ничего. Бывает, допустим, так — https://pp.vk.me/c418725/v418725326/aba2/hH_XZEbMxxs.jpg
      В сети уже устойчивый мем набирает обороты про русских «попаданцев» и альтернативную историю. Мол дай волю, засрут все вплоть до мезозоя.


      1. kir_rik
        09.11.2016 10:05
        +1

        Сам сборник, кстати, с обложкой ничего общего не имеет и представляет из себя набор трэш-рассказов (в хорошем смысле).


      1. MrDaedra
        18.11.2016 10:23
        +1

        Пример для тех, кто не в курсе.
        Пчела-попаданец.
        Может ли насекомое решающим образом повлиять на ход Второй мировой войны? Может -если внутри пчелы полковник-инженер Петр Дегтярев, нашедший себе в Августе 2014 года героическую смерть в ходе боев на Донбассе.


    1. Rumlin
      09.11.2016 06:05
      +1

      Мой естественный интеллект не справился с этой обложкой :)


    1. AxisPod
      09.11.2016 06:15

      Какая книга, такая и обложка.


  1. OldFisher
    08.11.2016 22:51
    +3

    А вот обложка в конце статьи — это, я считаю, приз для тех, кто дочитал до конца.


    1. tmin10
      08.11.2016 23:14
      +1

      Интересно, что выдала нейросеть на неё…


      1. unxed
        09.11.2016 01:18
        +2

        Вообще интересна её реакция на фейки.


        1. mayorovp
          09.11.2016 09:20
          +1

          Кстати, смех смехом — но многие и правда не знают как правильно копипастить с SO так, чтобы это было законно :)


          1. alexk24
            09.11.2016 14:07

            А действительно, как?


            1. mayorovp
              09.11.2016 16:54
              +1

              Надо в комментарии поставить ссылку на страницу, откуда кусок кода копировался.


              1. tmin10
                09.11.2016 20:42

                Вот же, теперь меня засудят авторы ответов с SO…


              1. unxed
                11.11.2016 12:00

                Я так делал всегда просто из соображений аккуратности кода. А это, оказывается, ещё и гарантирует лицензионную чистоту таких заимствований? Спасибо, не знал.


  1. staticlab
    09.11.2016 00:10
    +4

    Интересно, а на очень большой обучающей выборке нейросеть не «догадается» распознавать тематику по тексту заглавия?


    1. Mad__Max
      18.11.2016 02:39
      +1

      Не догадается — сеть слишком маленькая (мало нейронов). Изображения чтобы она могла их переварить при таком маленьком кол-ве нейронов предварительно ужимались до разрешения в 56х56 пикселей — слишком мало, чтобы даже самым крупным шрифтом набранные заголовки распознавать.

      Так что она реагировала в основном на стиль оформления — цветовую гамму, наличие/остутствие резких переходов/градиентов и тому подобные визуальные фишки.

      Из-за этого и результаты такие весьма низкие. Современные НС в принципе могут намного лучше.


    1. MoArakchy
      18.11.2016 10:22

      Каким образом?
      Для примера у Пехова:
      Созерцатель
      Искатели ветра
      Создатель кошмаров
      Танцующий с тенями
      Страж
      Ловцы удачи
      Попробуй угадать жанры.
      P.S. НЕ ПОДГЛЯДЫВАЙ!!!


      1. staticlab
        18.11.2016 10:47

        Ну я бы предположил, что это либо фантастика, либо фэнтези. В любом случае, речь идёт не только о классификации художественной литературы, а любой литературы в целом. Если бы классификация шла исключительно по текстам заголовков и имени автора, то с определённой долей вероятности можно было бы определить тему по ключевым словам («блюда» и «готовим» — скорее всего кулинария, «Желязны» — фантастика).

        Впрочем, согласен с комментатором выше — в разрешении 56x56 пикселей текст прочитать не получится, но и для человека было бы во некоторых случаях затруднительно предположить тематику книги, например, если на обложке научной книги нет иллюстрации.


      1. vconst
        18.11.2016 11:03

        Пехов? Как и у остального самиздата — можно смело назвать жанр «альтернативные попаданцы» и промахов будет очень мало.


        1. MoArakchy
          18.11.2016 12:54

          Мимо.
          Постапокалипсис, киберпанк и фентези.
          И это не самиздат.


  1. Sirikid
    09.11.2016 06:10

    Есть инфа почему использовался только один жанр?


  1. LazyCrazy
    09.11.2016 06:31
    +2

    Есть у меня знакомый, одно время трудившийся «пиратом» — привозил музыкальные компакт-диски. Большей частью альбомы «под заказ», но, зная вкусы постоянных заказчиков, брал и то, что могло им понравится. Приходя к нему и набирая диски послушать, поймал себя на том, что через какое-то время прослушивания абсолютно незнакомых исполнителей могу очень точно предсказать жанр и стиль альбома по оформлению обложки. Так же, как и у книг, встречаются желающие «выпендриться» и оформить своё произведение пооригинальнее, но и в этом случае какие-то признаки стиля можно найти (скажем, название коллектива).
    Интересно, если бы японцы для изучения выбрали не книги, а музыку, как бы это сказалось на результате?


    1. napa3um
      09.11.2016 09:35

      Обложки музыкальных альбомов проще, наверное. http://www.danieleek.com/wp-content/uploads/2013/08/black-metal-logos.jpg


      1. LazyCrazy
        09.11.2016 09:48
        +1

        Ну с этими-то проще всего! Но есть и не столь очевидные жанры. ;) Хотя, помниться, встречались и дэт-металлисты с обложками а-ля «розовые пони».


    1. kir_rik
      09.11.2016 10:11

      Ну с книгами довольно сложно все-таки. Пишет один человек, а оформляет другой. А стоит появиться экранизации, так вообще заменяют нормальную обложку принтами из фильма. Марсианин как наглядный предмет кардинальных перемен.


  1. AVKinc
    09.11.2016 07:17

    А совершу ка я безумный поступок и попробую прочитать «Звездные воины товарища Сталина»
    Вот не удержусь.


    1. nerudo
      09.11.2016 09:04
      +3

      Ведите дневник. Чтоб в случае чего хоть часть впечатлений сохранилась.


    1. Abiboss
      09.11.2016 10:12
      +1

      Вы это, берегите себя, всего Вам доброго и хорошего настроения!

      Тут, кстати, в одном из блогов психиатра со скидкой предлагают с промокодом — Вы сохраните, уверен, Вам пригодится после прочтения данного произведения.


    1. CarterBLR
      18.11.2016 10:23
      +1

      есть еще «Красный Падаван», про то как SSD Executor во время битвы при Эндоре проваливается в 1941.
      запомнилась фраза «О, а этот мужик в маске наверное главный сварщик»


    1. sksensei
      18.11.2016 10:23

      На самом деле, книга забавная. По духу очень похоже на Red Alert. Причём упоминаются и реально существовавшие в 30-е годы проекты, такие как телетанки и воздушные авианосцы. Никто ведь всерьёз не воспринимает Red Alert, не так ли?


  1. xxvy
    09.11.2016 08:38

    Возможно сеть также обучилась классифицировать книжки по названиям и ФИО авторов. Буквы же с обложек никто не убирал?


    1. LazyCrazy
      09.11.2016 09:06
      +1

      Случается, что признанный в определённом жанре автор неожиданно для поклонников пишет книгу в совсем другом стиле. В подобных случаях учёт имён авторов только бы помешал.


      1. xxvy
        09.11.2016 10:05

        Ну так, судя по результатам, сеть не сильно и угадывает.


    1. Mad__Max
      18.11.2016 02:44

      Не обучилась, буквы специально не убирали, но снижали разрешение исходных картинок перед подачей в сеть так сильно, что слова в тексте уже не разобрать (только сам факт наличия каких-то надписей и какую примерно долю площади они занимают). См: https://geektimes.ru/post/282404/#comment_9699262


  1. LanMaster
    09.11.2016 09:44
    +1

    >> Ошиблась сеть и с разными по сути, но близкими по оформлению книгами по праву и религии.

    Тут сеть оказалась умнее экспериментаторов: закон и закон божий же!


  1. emilsha
    09.11.2016 10:06

    тоже самое можно судить фильмы по обложке, меня порой даже удивляет как многие оставляют негативный отзыв о фильме посмотрев его, но ведь обложке видно же было что фильм не очень


  1. 1eqinfinity
    09.11.2016 10:47
    +2

    Не судить по обложке конечно сложно. Я бы никогда не стал читать такую книжку, даже название и автора не постарался бы прочесть:

    Нет!
    image


    1. emilsha
      09.11.2016 17:40
      -1

      а по моему первая лучше


      1. 1eqinfinity
        09.11.2016 23:08
        +1

        Вы, должно быть, счастливый человек :)


  1. vconst
    09.11.2016 11:50
    -1

    Обложка? Что это такое? Это мелкая картинка на странице OPDS-сервера для скачивания книжки, которая пролистывается не глядя? Уже много лет не обращаю ни обложки ни малейшего внимания.


    1. impetus
      09.11.2016 12:00

      я в выкачанном полностью либ.ру.сек-е — прошёл скриптами и во всех fb2 всё, кроме текста отрезал. На порядок где-то размер сократил. Не столько ради места на диске, сколь ради скорости полнотекстового поиска


      1. vconst
        09.11.2016 12:05
        +1

        Полнотекстовый поиск можно вот этот использовать: http://fbsearch.ru/. Рекомендую.


  1. vconst
    09.11.2016 17:08
    +1

    Немного жести, для тренировки нейросетей. Открывать с осторожностью

    Я предупредил


    1. klvov
      09.11.2016 17:38
      +1

      Это очень правильно: прятать такие картинки под кат.


      1. vconst
        09.11.2016 20:53
        +1

        Да мне самому страшно смотреть :)


        1. Doktor_Gradus
          10.11.2016 21:46

          А вас имя Леонид Каганов ни на какие мысли не натолкнуло?


          1. vconst
            10.11.2016 21:48

            А где там Каганов на обложках?


            1. Doktor_Gradus
              10.11.2016 23:03

              Ой, извиняюсь, и правда.

              Там просто выше комментарием ссылка, а я открыл их все подряд :)


    1. Ugrum
      10.11.2016 15:34

      «Доктор, а тогда почему у вас такие картинки?»


      1. vconst
        10.11.2016 17:11

        На Флибусте есть топик с «коллекцией» :)


  1. Am0ralist
    09.11.2016 22:24

    еще добавим жести (промахнулся ответом):
    http://ffblog.info/wp-content/uploads/2013/02/cover44.jpg


  1. xxvy
    11.11.2016 06:22
    +1

    лет 15 назад заходил в книжный магазин и видел целый стенд такого:
    http://www.zipsites.ru/me/literatura/Seriya_Sharm_Lyubovnye_romany__551_proizvedenie/cover.jpg

    Ни одну из таких книг я не читал, но сразу понимал, что читать не хочу.

    P.S. Почему-то сформировалось заочное мнение, что там не только обложки похожи, но и содержимое примерно об одном и том же, только имена разные :)