
Люди отлично справляются с определением жанра, едва взглянув на визуальное оформление книги. Согласитесь, что выбрать кулинарную книгу, биографию или путеводитель, просто посмотрев на обложку – довольно легко. Тогда возникает интересный вопрос: может ли искусственный интеллект так же успешно судить о книге по обложке, как и человек?
Ответ на него попытались получить ученые из Университета Кюсю в Японии. Они поставили перед сверточной нейронной сетью (CNN) задачу изучить книжные обложки и определить категорию, к которой они относятся. Метод обучения оказался довольно простым: исследователи скачали более 13,5 тысяч обложек с сайта Amazon.com вместе с названием, именем автора и жанром книги. Помимо определения категории, этот набор данных может в дальнейшем пригодиться для обучения нейронных сетей распознаванию и анализу шрифтов и решению других задач, связанных с дизайном. В своем эксперименте ученые использовали только жанры, отбросив все остальные данные из набора. Нейросеть разбиралась в 20 возможных жанрах. Если книга повторялась сразу в нескольких категориях, ученые просто указывали самый первый.

Затем группа исследователей использовала 80% набора данных, чтобы обучить нейронную сеть распознавать жанр в зависимости от изображения на обложке. Нейросеть, которую они использовали в своем эксперименте, состояла из четырех слоев, в каждом из которых насчитывалось 512 нейронов. Вместе они учились определять корреляцию между дизайном обложки и жанром. Еще 10% набора данных ушли на проверку сети. На заключительном этапе использовались оставшиеся 10%, чтобы определить, насколько хорошо сеть может классифицировать незнакомые изображения.
Результат оказался довольно интересным. Алгоритм корректно определял наиболее часто встречающуюся ему тройку жанров в 40% случаях. Со всеми остальными жанрами точность составила порядка 20%. Это значительно лучше, чем просто случайность. Относительно корректная работа нейросети показывает, что классификация книг по обложкам реальная, хотя и трудновыполнимая задача.
Некоторые жанры оказалось легче распознать, чем другие. Например, туристические книги или книги о компьютерах и технологиях сравнительно легко поддаются определению, поскольку дизайнеры обычно используют схожие по смыслу изображения для обложки. Кроме того, ученые установили, что нейросеть с легкостью узнавала кулинарные книги, если при их оформлении используются фотографии еды.

Однако нейросеть начинала сомневаться, стоило только появиться на обложке фотографии повара или другие объекты, косвенно связанные с приготовлением блюд.
Биографии и мемуары также вызвали у нейросети затруднения: очень часто такие книги отправлялись в категорию исторических. Интересно, что для многих подобных книг вторичным жанром на Amazon.com оказывалась именно история. Поэтому нельзя сказать, что алгоритм ошибся на 100%.

Еще CNN перепутала детские книжки с комиксами и графическими романами, а также медицинские книги с учебниками по математике. Это неудивительно, учитывая определенное сходство между этими категориями. Ошиблась сеть и с разными по сути, но близкими по оформлению книгами по праву и религии. Обычно их обложки выполнены либо в одном цвете без каких-либо рисунков, либо с абстрактными изображениями.

Тем не менее, результат этого исследования заслуживает внимания. Он может помочь дизайнерам улучшить свои навыки, когда дело доходит до книжных обложек. Можно пойти еще дальше и обучать технику проектировать обложки без участия человека. В будущем это может означать, что создание человеком дизайна обложки – еще одна задача, которая отправится в архивы истории.
Графический дизайн стал объектом для машинного обучения сравнительно недавно. Самый известный опыт практического применения нейронных сетей связан, в первую очередь, с распознаванием художественного стиля известных авторов картин и дальнейшим его переносом на другие изображения. Исследователи из Университета Кюсю преследовали похожую цель, но зашли немного дальше: они попытались выявить скрытый смысл, который кроется за стилем оформления. Если говорить о классификации, уже были попытки научить нейросети сортировать музыку, картины, тексты по жанрам.
Научная работа опубликована на arXiv.org (ArXiv:1610.09204 [cs.CV])
Комментарии (52)
OldFisher
08.11.2016 22:51+3А вот обложка в конце статьи — это, я считаю, приз для тех, кто дочитал до конца.
tmin10
08.11.2016 23:14+1Интересно, что выдала нейросеть на неё…
staticlab
09.11.2016 00:10+4Интересно, а на очень большой обучающей выборке нейросеть не «догадается» распознавать тематику по тексту заглавия?
Mad__Max
18.11.2016 02:39+1Не догадается — сеть слишком маленькая (мало нейронов). Изображения чтобы она могла их переварить при таком маленьком кол-ве нейронов предварительно ужимались до разрешения в 56х56 пикселей — слишком мало, чтобы даже самым крупным шрифтом набранные заголовки распознавать.
Так что она реагировала в основном на стиль оформления — цветовую гамму, наличие/остутствие резких переходов/градиентов и тому подобные визуальные фишки.
Из-за этого и результаты такие весьма низкие. Современные НС в принципе могут намного лучше.
MoArakchy
18.11.2016 10:22Каким образом?
Для примера у Пехова:
Созерцатель
Искатели ветра
Создатель кошмаров
Танцующий с тенями
Страж
Ловцы удачи
Попробуй угадать жанры.
P.S. НЕ ПОДГЛЯДЫВАЙ!!!staticlab
18.11.2016 10:47Ну я бы предположил, что это либо фантастика, либо фэнтези. В любом случае, речь идёт не только о классификации художественной литературы, а любой литературы в целом. Если бы классификация шла исключительно по текстам заголовков и имени автора, то с определённой долей вероятности можно было бы определить тему по ключевым словам («блюда» и «готовим» — скорее всего кулинария, «Желязны» — фантастика).
Впрочем, согласен с комментатором выше — в разрешении 56x56 пикселей текст прочитать не получится, но и для человека было бы во некоторых случаях затруднительно предположить тематику книги, например, если на обложке научной книги нет иллюстрации.
LazyCrazy
09.11.2016 06:31+2Есть у меня знакомый, одно время трудившийся «пиратом» — привозил музыкальные компакт-диски. Большей частью альбомы «под заказ», но, зная вкусы постоянных заказчиков, брал и то, что могло им понравится. Приходя к нему и набирая диски послушать, поймал себя на том, что через какое-то время прослушивания абсолютно незнакомых исполнителей могу очень точно предсказать жанр и стиль альбома по оформлению обложки. Так же, как и у книг, встречаются желающие «выпендриться» и оформить своё произведение пооригинальнее, но и в этом случае какие-то признаки стиля можно найти (скажем, название коллектива).
Интересно, если бы японцы для изучения выбрали не книги, а музыку, как бы это сказалось на результате?napa3um
09.11.2016 09:35Обложки музыкальных альбомов проще, наверное. http://www.danieleek.com/wp-content/uploads/2013/08/black-metal-logos.jpg
LazyCrazy
09.11.2016 09:48+1Ну с этими-то проще всего! Но есть и не столь очевидные жанры. ;) Хотя, помниться, встречались и дэт-металлисты с обложками а-ля «розовые пони».
kir_rik
09.11.2016 10:11Ну с книгами довольно сложно все-таки. Пишет один человек, а оформляет другой. А стоит появиться экранизации, так вообще заменяют нормальную обложку принтами из фильма. Марсианин как наглядный предмет кардинальных перемен.
AVKinc
09.11.2016 07:17А совершу ка я безумный поступок и попробую прочитать «Звездные воины товарища Сталина»
Вот не удержусь.Abiboss
09.11.2016 10:12+1Вы это, берегите себя, всего Вам доброго и хорошего настроения!
Тут, кстати, в одном из блогов психиатра со скидкой предлагают с промокодом — Вы сохраните, уверен, Вам пригодится после прочтения данного произведения.
CarterBLR
18.11.2016 10:23+1есть еще «Красный Падаван», про то как SSD Executor во время битвы при Эндоре проваливается в 1941.
запомнилась фраза «О, а этот мужик в маске наверное главный сварщик»
sksensei
18.11.2016 10:23На самом деле, книга забавная. По духу очень похоже на Red Alert. Причём упоминаются и реально существовавшие в 30-е годы проекты, такие как телетанки и воздушные авианосцы. Никто ведь всерьёз не воспринимает Red Alert, не так ли?
xxvy
09.11.2016 08:38Возможно сеть также обучилась классифицировать книжки по названиям и ФИО авторов. Буквы же с обложек никто не убирал?
Mad__Max
18.11.2016 02:44Не обучилась, буквы специально не убирали, но снижали разрешение исходных картинок перед подачей в сеть так сильно, что слова в тексте уже не разобрать (только сам факт наличия каких-то надписей и какую примерно долю площади они занимают). См: https://geektimes.ru/post/282404/#comment_9699262
LanMaster
09.11.2016 09:44+1>> Ошиблась сеть и с разными по сути, но близкими по оформлению книгами по праву и религии.
Тут сеть оказалась умнее экспериментаторов: закон и закон божий же!
emilsha
09.11.2016 10:06тоже самое можно судить фильмы по обложке, меня порой даже удивляет как многие оставляют негативный отзыв о фильме посмотрев его, но ведь обложке видно же было что фильм не очень
1eqinfinity
09.11.2016 10:47+2Не судить по обложке конечно сложно. Я бы никогда не стал читать такую книжку, даже название и автора не постарался бы прочесть:
vconst
09.11.2016 11:50-1Обложка? Что это такое? Это мелкая картинка на странице OPDS-сервера для скачивания книжки, которая пролистывается не глядя? Уже много лет не обращаю ни обложки ни малейшего внимания.
impetus
09.11.2016 12:00я в выкачанном полностью либ.ру.сек-е — прошёл скриптами и во всех fb2 всё, кроме текста отрезал. На порядок где-то размер сократил. Не столько ради места на диске, сколь ради скорости полнотекстового поиска
vconst
09.11.2016 12:05+1Полнотекстовый поиск можно вот этот использовать: http://fbsearch.ru/. Рекомендую.
vconst
09.11.2016 17:08+1Немного жести, для тренировки нейросетей. Открывать с осторожностью
Я предупредилklvov
09.11.2016 17:38+1Это очень правильно: прятать такие картинки под кат.
vconst
09.11.2016 20:53+1Да мне самому страшно смотреть :)
Doktor_Gradus
10.11.2016 21:46А вас имя Леонид Каганов ни на какие мысли не натолкнуло?
vconst
10.11.2016 21:48А где там Каганов на обложках?
Doktor_Gradus
10.11.2016 23:03Ой, извиняюсь, и правда.
Там просто выше комментарием ссылка, а я открыл их все подряд :)
Am0ralist
09.11.2016 22:24еще добавим жести (промахнулся ответом):
http://ffblog.info/wp-content/uploads/2013/02/cover44.jpg
xxvy
11.11.2016 06:22+1лет 15 назад заходил в книжный магазин и видел целый стенд такого:
http://www.zipsites.ru/me/literatura/Seriya_Sharm_Lyubovnye_romany__551_proizvedenie/cover.jpg
Ни одну из таких книг я не читал, но сразу понимал, что читать не хочу.
P.S. Почему-то сформировалось заочное мнение, что там не только обложки похожи, но и содержимое примерно об одном и том же, только имена разные :)
gionet
Господи, что только ни придумают! (я про обложку и книгу в начале статьи)
DaveDee
Да это еще вроде ничего. Бывает, допустим, так — https://pp.vk.me/c418725/v418725326/aba2/hH_XZEbMxxs.jpg
В сети уже устойчивый мем набирает обороты про русских «попаданцев» и альтернативную историю. Мол дай волю, засрут все вплоть до мезозоя.
kir_rik
Сам сборник, кстати, с обложкой ничего общего не имеет и представляет из себя набор трэш-рассказов (в хорошем смысле).
MrDaedra
Пример для тех, кто не в курсе.
Пчела-попаданец.
Может ли насекомое решающим образом повлиять на ход Второй мировой войны? Может -если внутри пчелы полковник-инженер Петр Дегтярев, нашедший себе в Августе 2014 года героическую смерть в ходе боев на Донбассе.
Rumlin
Мой естественный интеллект не справился с этой обложкой :)
AxisPod
Какая книга, такая и обложка.