Люди отлично справляются с определением жанра, едва взглянув на визуальное оформление книги. Согласитесь, что выбрать кулинарную книгу, биографию или путеводитель, просто посмотрев на обложку – довольно легко. Тогда возникает интересный вопрос: может ли искусственный интеллект так же успешно судить о книге по обложке, как и человек?
Ответ на него попытались получить ученые из Университета Кюсю в Японии. Они поставили перед сверточной нейронной сетью (CNN) задачу изучить книжные обложки и определить категорию, к которой они относятся. Метод обучения оказался довольно простым: исследователи скачали более 13,5 тысяч обложек с сайта Amazon.com вместе с названием, именем автора и жанром книги. Помимо определения категории, этот набор данных может в дальнейшем пригодиться для обучения нейронных сетей распознаванию и анализу шрифтов и решению других задач, связанных с дизайном. В своем эксперименте ученые использовали только жанры, отбросив все остальные данные из набора. Нейросеть разбиралась в 20 возможных жанрах. Если книга повторялась сразу в нескольких категориях, ученые просто указывали самый первый.
Затем группа исследователей использовала 80% набора данных, чтобы обучить нейронную сеть распознавать жанр в зависимости от изображения на обложке. Нейросеть, которую они использовали в своем эксперименте, состояла из четырех слоев, в каждом из которых насчитывалось 512 нейронов. Вместе они учились определять корреляцию между дизайном обложки и жанром. Еще 10% набора данных ушли на проверку сети. На заключительном этапе использовались оставшиеся 10%, чтобы определить, насколько хорошо сеть может классифицировать незнакомые изображения.
Результат оказался довольно интересным. Алгоритм корректно определял наиболее часто встречающуюся ему тройку жанров в 40% случаях. Со всеми остальными жанрами точность составила порядка 20%. Это значительно лучше, чем просто случайность. Относительно корректная работа нейросети показывает, что классификация книг по обложкам реальная, хотя и трудновыполнимая задача.
Некоторые жанры оказалось легче распознать, чем другие. Например, туристические книги или книги о компьютерах и технологиях сравнительно легко поддаются определению, поскольку дизайнеры обычно используют схожие по смыслу изображения для обложки. Кроме того, ученые установили, что нейросеть с легкостью узнавала кулинарные книги, если при их оформлении используются фотографии еды.
Однако нейросеть начинала сомневаться, стоило только появиться на обложке фотографии повара или другие объекты, косвенно связанные с приготовлением блюд.
Биографии и мемуары также вызвали у нейросети затруднения: очень часто такие книги отправлялись в категорию исторических. Интересно, что для многих подобных книг вторичным жанром на Amazon.com оказывалась именно история. Поэтому нельзя сказать, что алгоритм ошибся на 100%.
Еще CNN перепутала детские книжки с комиксами и графическими романами, а также медицинские книги с учебниками по математике. Это неудивительно, учитывая определенное сходство между этими категориями. Ошиблась сеть и с разными по сути, но близкими по оформлению книгами по праву и религии. Обычно их обложки выполнены либо в одном цвете без каких-либо рисунков, либо с абстрактными изображениями.
В работе, представленной японскими учеными, есть один существенный недостаток. Они не сравнивали производительность их нейронной сети со способностью человека определять жанры по обложкам. Получился бы интересный эксперимент, который было бы легко организовать силами краудсорсинговых онлайн-платформ. И до тех пор, пока этот эксперимент не будет осуществлен, мы не узнаем, справляется ли искусственный интеллект с поставленной задачей лучше, чем человек. Но несмотря на это досадное упущение, независимо от того, насколько хорошо мы можем определять жанры по обложке, машины однажды смогут сделать это быстрее. Это лишь вопрос времени.
Тем не менее, результат этого исследования заслуживает внимания. Он может помочь дизайнерам улучшить свои навыки, когда дело доходит до книжных обложек. Можно пойти еще дальше и обучать технику проектировать обложки без участия человека. В будущем это может означать, что создание человеком дизайна обложки – еще одна задача, которая отправится в архивы истории.
Графический дизайн стал объектом для машинного обучения сравнительно недавно. Самый известный опыт практического применения нейронных сетей связан, в первую очередь, с распознаванием художественного стиля известных авторов картин и дальнейшим его переносом на другие изображения. Исследователи из Университета Кюсю преследовали похожую цель, но зашли немного дальше: они попытались выявить скрытый смысл, который кроется за стилем оформления. Если говорить о классификации, уже были попытки научить нейросети сортировать музыку, картины, тексты по жанрам.
Научная работа опубликована на arXiv.org (ArXiv:1610.09204 [cs.CV])
Комментарии (52)
OldFisher
08.11.2016 22:51+3А вот обложка в конце статьи — это, я считаю, приз для тех, кто дочитал до конца.
tmin10
08.11.2016 23:14+1Интересно, что выдала нейросеть на неё…
staticlab
09.11.2016 00:10+4Интересно, а на очень большой обучающей выборке нейросеть не «догадается» распознавать тематику по тексту заглавия?
Mad__Max
18.11.2016 02:39+1Не догадается — сеть слишком маленькая (мало нейронов). Изображения чтобы она могла их переварить при таком маленьком кол-ве нейронов предварительно ужимались до разрешения в 56х56 пикселей — слишком мало, чтобы даже самым крупным шрифтом набранные заголовки распознавать.
Так что она реагировала в основном на стиль оформления — цветовую гамму, наличие/остутствие резких переходов/градиентов и тому подобные визуальные фишки.
Из-за этого и результаты такие весьма низкие. Современные НС в принципе могут намного лучше.
MoArakchy
18.11.2016 10:22Каким образом?
Для примера у Пехова:
Созерцатель
Искатели ветра
Создатель кошмаров
Танцующий с тенями
Страж
Ловцы удачи
Попробуй угадать жанры.
P.S. НЕ ПОДГЛЯДЫВАЙ!!!staticlab
18.11.2016 10:47Ну я бы предположил, что это либо фантастика, либо фэнтези. В любом случае, речь идёт не только о классификации художественной литературы, а любой литературы в целом. Если бы классификация шла исключительно по текстам заголовков и имени автора, то с определённой долей вероятности можно было бы определить тему по ключевым словам («блюда» и «готовим» — скорее всего кулинария, «Желязны» — фантастика).
Впрочем, согласен с комментатором выше — в разрешении 56x56 пикселей текст прочитать не получится, но и для человека было бы во некоторых случаях затруднительно предположить тематику книги, например, если на обложке научной книги нет иллюстрации.
LazyCrazy
09.11.2016 06:31+2Есть у меня знакомый, одно время трудившийся «пиратом» — привозил музыкальные компакт-диски. Большей частью альбомы «под заказ», но, зная вкусы постоянных заказчиков, брал и то, что могло им понравится. Приходя к нему и набирая диски послушать, поймал себя на том, что через какое-то время прослушивания абсолютно незнакомых исполнителей могу очень точно предсказать жанр и стиль альбома по оформлению обложки. Так же, как и у книг, встречаются желающие «выпендриться» и оформить своё произведение пооригинальнее, но и в этом случае какие-то признаки стиля можно найти (скажем, название коллектива).
Интересно, если бы японцы для изучения выбрали не книги, а музыку, как бы это сказалось на результате?napa3um
09.11.2016 09:35Обложки музыкальных альбомов проще, наверное. http://www.danieleek.com/wp-content/uploads/2013/08/black-metal-logos.jpg
LazyCrazy
09.11.2016 09:48+1Ну с этими-то проще всего! Но есть и не столь очевидные жанры. ;) Хотя, помниться, встречались и дэт-металлисты с обложками а-ля «розовые пони».
kir_rik
09.11.2016 10:11Ну с книгами довольно сложно все-таки. Пишет один человек, а оформляет другой. А стоит появиться экранизации, так вообще заменяют нормальную обложку принтами из фильма. Марсианин как наглядный предмет кардинальных перемен.
AVKinc
09.11.2016 07:17А совершу ка я безумный поступок и попробую прочитать «Звездные воины товарища Сталина»
Вот не удержусь.Abiboss
09.11.2016 10:12+1Вы это, берегите себя, всего Вам доброго и хорошего настроения!
Тут, кстати, в одном из блогов психиатра со скидкой предлагают с промокодом — Вы сохраните, уверен, Вам пригодится после прочтения данного произведения.
CarterBLR
18.11.2016 10:23+1есть еще «Красный Падаван», про то как SSD Executor во время битвы при Эндоре проваливается в 1941.
запомнилась фраза «О, а этот мужик в маске наверное главный сварщик»
sksensei
18.11.2016 10:23На самом деле, книга забавная. По духу очень похоже на Red Alert. Причём упоминаются и реально существовавшие в 30-е годы проекты, такие как телетанки и воздушные авианосцы. Никто ведь всерьёз не воспринимает Red Alert, не так ли?
xxvy
09.11.2016 08:38Возможно сеть также обучилась классифицировать книжки по названиям и ФИО авторов. Буквы же с обложек никто не убирал?
Mad__Max
18.11.2016 02:44Не обучилась, буквы специально не убирали, но снижали разрешение исходных картинок перед подачей в сеть так сильно, что слова в тексте уже не разобрать (только сам факт наличия каких-то надписей и какую примерно долю площади они занимают). См: https://geektimes.ru/post/282404/#comment_9699262
LanMaster
09.11.2016 09:44+1>> Ошиблась сеть и с разными по сути, но близкими по оформлению книгами по праву и религии.
Тут сеть оказалась умнее экспериментаторов: закон и закон божий же!
emilsha
09.11.2016 10:06тоже самое можно судить фильмы по обложке, меня порой даже удивляет как многие оставляют негативный отзыв о фильме посмотрев его, но ведь обложке видно же было что фильм не очень
1eqinfinity
09.11.2016 10:47+2Не судить по обложке конечно сложно. Я бы никогда не стал читать такую книжку, даже название и автора не постарался бы прочесть:
vconst
09.11.2016 11:50-1Обложка? Что это такое? Это мелкая картинка на странице OPDS-сервера для скачивания книжки, которая пролистывается не глядя? Уже много лет не обращаю ни обложки ни малейшего внимания.
impetus
09.11.2016 12:00я в выкачанном полностью либ.ру.сек-е — прошёл скриптами и во всех fb2 всё, кроме текста отрезал. На порядок где-то размер сократил. Не столько ради места на диске, сколь ради скорости полнотекстового поиска
vconst
09.11.2016 12:05+1Полнотекстовый поиск можно вот этот использовать: http://fbsearch.ru/. Рекомендую.
vconst
09.11.2016 17:08+1Немного жести, для тренировки нейросетей. Открывать с осторожностью
Я предупредилklvov
09.11.2016 17:38+1Это очень правильно: прятать такие картинки под кат.
vconst
09.11.2016 20:53+1Да мне самому страшно смотреть :)
Doktor_Gradus
10.11.2016 21:46А вас имя Леонид Каганов ни на какие мысли не натолкнуло?
vconst
10.11.2016 21:48А где там Каганов на обложках?
Doktor_Gradus
10.11.2016 23:03Ой, извиняюсь, и правда.
Там просто выше комментарием ссылка, а я открыл их все подряд :)
Am0ralist
09.11.2016 22:24еще добавим жести (промахнулся ответом):
http://ffblog.info/wp-content/uploads/2013/02/cover44.jpg
xxvy
11.11.2016 06:22+1лет 15 назад заходил в книжный магазин и видел целый стенд такого:
http://www.zipsites.ru/me/literatura/Seriya_Sharm_Lyubovnye_romany__551_proizvedenie/cover.jpg
Ни одну из таких книг я не читал, но сразу понимал, что читать не хочу.
P.S. Почему-то сформировалось заочное мнение, что там не только обложки похожи, но и содержимое примерно об одном и том же, только имена разные :)
gionet
Господи, что только ни придумают! (я про обложку и книгу в начале статьи)
DaveDee
Да это еще вроде ничего. Бывает, допустим, так — https://pp.vk.me/c418725/v418725326/aba2/hH_XZEbMxxs.jpg
В сети уже устойчивый мем набирает обороты про русских «попаданцев» и альтернативную историю. Мол дай волю, засрут все вплоть до мезозоя.
kir_rik
Сам сборник, кстати, с обложкой ничего общего не имеет и представляет из себя набор трэш-рассказов (в хорошем смысле).
MrDaedra
Пример для тех, кто не в курсе.
Пчела-попаданец.
Может ли насекомое решающим образом повлиять на ход Второй мировой войны? Может -если внутри пчелы полковник-инженер Петр Дегтярев, нашедший себе в Августе 2014 года героическую смерть в ходе боев на Донбассе.
Rumlin
Мой естественный интеллект не справился с этой обложкой :)
AxisPod
Какая книга, такая и обложка.