![image](https://habrastorage.org/getpro/geektimes/post_images/45a/0c9/a5b/45a0c9a5bb827c732880ae9bbbd53996.png)
В январе 2015 года пожар повредил 15% фондов научной библиотеки ИНИОН в Москве. Тогда выгорело 2000 квадратных метров и обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. По словам директора библиотеки Юрия Пивоварова, деньги на оцифровку почти не выделялись. Проблема полной оцифровки книг, документов, рукописей не решена в глобальном масштабе, хотя существуют проекты, которые этим занимаются, и сами библиотеки в России и других странах пытаются перевести имеющиеся экземпляры в цифровой вид.
Для оцифровки книг используют громоздкие сканеры стоимостью от десяти тысяч долларов. За этими сканерами работают профессиональные операторы, время которых стоит денег. Операторы переворачивают страницы книги, а сканер фотографирует одновременно две страницы. Скорость работы обычно составляет до пятисот страниц в час, то есть за час работник отсканирует одну-две книги.
Калев Литару предлагает призвать на помощь энтузиастов со всего мира с их смартфонами. В качестве примера эффективности краудсорсинга он рассказывает о проекте eBird, который отслеживает миграции птиц. В этом проекте за тринадцать лет работали более ста тысяч волонтёров, что позволило зафиксировать 275 миллионов наблюдений из 2,87 миллионов уникальных локаций. Сейчас у людей на планете 2,6 миллиардов смартфонов, к 2020 году их количество вырастет до 6,1 миллиардов, в том числе за счёт развивающихся стран.
![image](https://habrastorage.org/getpro/geektimes/post_images/105/d71/470/105d71470eed86122bc267fd80f1f9e6.jpg)
Сотрудники российской компании «Элар» работают над оцифровкой книг
Литару предлагает разделить проект на две части. На первом этапе нужно составить список книг, подлежащих оцифровке. Для этого используют каталог WorldCat и другие инструменты: в первоначальный список войдут все книги, которые есть в библиотеках и которые не были оцифрованы. Из этого списка исключат хрупкие экземпляры и те книги, которые находятся под защитой авторских прав. Составление списка может быть частично отдано на краудсорсинг — библиотеки будут публиковать список книг, статус которых в отношении защиты копирайтом неизвестен, а волонтёры будут проверять первые страницы книг и отправлять библиотекам эту информацию.
Один только первый этап позволит понять, каков процент оцифрованных книг в мире. По собственным данным Google, компания в рамках проекта Ngram оцифровала 6% всех опубликованных книг, но точный их список неизвестен.
После составления полного списка неоцифрованных произведений начинается основная краудсорсинговая часть проекта. Волонтёры будут приходить в библиотеку, брать книгу, доставать смартфон и фотографировать обложку. Система оптического распознавания символов наподобие той, что использует Google, определит автора и название книги и сравнит с имеющимся на сервере списком, после чего сообщит о необходимости оцифровать экземпляр или о том, что эта работу уже проведена. Если книга подлежит переводу в цифровой вид, волонтёр сфотографирует первые несколько страниц: на этом этапе система должна определить, насколько качественные получаются фотографии, всё ли хорошо со светом, можно ли распознать символы, не слишком ли у фотографа трясутся руки. Затем пользователь получает команду продолжить работу или взять другую книгу.
Литару провёл несколько тестов и выяснил, что таким образом один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу. Сам он в 2004 году для дипломной работы вручную оцифровал тридцать тысяч страниц материалов из более чем семисот документов, используя обычную цифровую камеру и дешёвую настольную лампу. Большую часть этой работы Литару выполнил в течение пятнадцати часов в один из выходных дней.
Изображения со смартфонов не будут того же качества, которое достигается с помощью профессиональной техники. Но их будет достаточно для чтения, а система оптического распознавания символов сделает текст доступным для поиска. Эти страницы были сфотографированы десять лет назад, а сегодня смартфоны имеют более качественные камеры и светодиодные вспышки.
Библиотеки могут позволить волонтёрам использовать имеющиеся в учреждении сканеры документов для этой работы. Все результаты будут отправлены на центральный сервер проекта, где будут переведены в PDF и другие форматы для чтения электронных книг, и где текст будет обработан и доступен для поиска.
В процесс оцифровки можно включить фактор геймификации. Волонтёры будут получать очки за оцифрованные произведения, а организации смогут устраивать «дни оцифровки» и дарить подарки лучшим участникам проекта. В работу смогут включиться даже школьники. Библиотеки будут получать отзывы от пользователей о наличии плохо оцифрованных страниц. Волонтёры станут кем-то вроде редакторов Википедии, а библиотеки будут координировать их работу.
Википедия и другие краудсорсинговые проекты показали свою эффективность. И краудсорсинг может вновь показать свою эффективность в оцифровке книжного наследия, уверен Калев Литару. Вместо селфи и фотографий еды в Instagram пользователи двух с половиной миллиардов смартфонов могут помочь сохранить множество произведений и создать огромную базу из всех когда-либо опубликованных книг, чтобы оставить её нашим потомкам.
Комментарии (16)
NeoCode
10.11.2015 23:32+6Копирасты же заклюют.
Прежде чем оцифровывать книги, нужен проект глобальной пиринговой библиотеки, не привязанной к каким-либо сайтам, трекерам и т.п., куда все это можно было бы складывать, сортировать и обрабатывать. А такого проекта пока нет, к сожалению.TyVik
11.11.2015 00:40+1Google вроде отбились от них
corvus
11.11.2015 03:46+2Это не надолго. С новыми законами (вроде транстихоокеанского партнерства) копирайт станет сильнее и копирасты получат больше инструментов и возможностей душить любые инициативы, которые не приносят им прибыли.
kuznetsovin
11.11.2015 08:19Из этого списка исключат хрупкие экземпляры и те книги, которые находятся под защитой авторских прав.
Я так понимаю это как раз для них и предназначено.wormball
11.11.2015 10:58Так это получается, что почти ничего не остаётся. С другой стороны, можно в порядке личной инициативы сканировать то, что защищено авторским правом.
edogs
11.11.2015 04:08+6Это как?
сканеры стоимостью от десяти тысяч долларов… профессиональные операторы,… Скорость работы обычно составляет до пятисот страниц в час,
и тут внезапно
смартфона… не слишком ли у фотографа трясутся руки. один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу
Stalker_RED
11.11.2015 04:54+1за пять-десять минут оцифровать 600-страничную
Это 0.5 — 1 секунда на страницу. Да, это какой-то весьма приноровившийся пользователь.
И 500 страниц в час тоже не рекорд. Вот первый нагугленый 200 страниц в минуту выдает
Sergey-S-Kovalev
11.11.2015 05:45+6Михалков и Ко предпочтут, что бы все сгорело просто так, если никто за такое фотографирование бабла не отвалит, наверняка.
n01d
12.11.2015 07:18До Михалкова и Ко это даже и не дойдёт. Боюсь, что в этой стране инициатива останется только на страницах ГТ…
Areso
11.11.2015 09:08+1Так-то дело благое, только к книгам, копирайт на которые уже истек, просто так кого попало со смартфонами не пускают (и дело даже не в читательском билете), а с остальными книгами все упрется в копирайт. Впрочем, видел самописные варианты, когда книга в электронном виде «взятая почитать» блокировалась для чтения другими. Но это костыль, атавизм.
JinnZest
11.11.2015 13:41-2Это очень «удобно», когда горят старинные документы.
Вдруг в них кто-нибудь найдет что-то, что не соответствует официальной версии истории…
KvanTTT
А имеет ли смысл оцифровывать все существующие книги в публичном доступе? Не думаю, что потомки смогут все изучить, особенно что касается художественной литературы. А еще нужно учесть, что количество информации и так быстро увеличивается.
wormball
А имеет ли смысл заниматься наукой? Не думаю, что потомки смогут все изучить, особенно что касается геномных данных. А еще нужно учесть, что количество информации и так быстро увеличивается.
KvanTTT
Практически все научные знания уже и так перенесены в цифровой вид, а в художественной литературе много избыточной информации. Сейчас то уже за одну жизнь не возможно прочесть все книги. Но в чем-то вы правы: потомки все меньше и меньше будут заниматься изучением всех деталей из-за их возрастающего количества, и все больше задач будет выполнять компьютер. А кто же будет читать всю художественную литературу? Роботы?
Stalker_RED
Всё правильно — художественная литература не нужна, иди мешай бетон.
KvanTTT
Не говори что мне делать, и я не скажу куда тебе идти.