
Центр непрерывного образования
факультет компьютерных наук НИУ ВШЭ
Поиск по цифровым документам, от простого текстового файла до Всемирной паутины, гораздо проще, чем поиск по бумажным носителям информации. Однако цифровым носителям информации не исполнилось и ста лет — а ведь до их появления люди тоже как-то справлялись с поиском нужной информации.
Сегодня Антон Басов @antonbasov, исследователь истории науки и техники, автор Центра непрерывного образования факультета компьютерных наук ВШЭ, рассказывает, зачем в книгах нужны указатели, что такое конкорданс и как компьютер Univac изучал богословие.

Антон Басов
Исследователь истории науки и техники, автор Центра непрерывного образования факультета компьютерных наук ВШЭ
В подавляющем большинстве электронных книг поиск определенного слова или фразы не представляет никакого труда. Говоря шире, поиск по любым цифровым документам, от простого текстового файла до Всемирной паутины, гораздо проще, чем поиск по бумажным носителям информации. Однако электронным базам данных не исполнилось и ста лет — а ведь до их появления люди тоже как-то управлялись с поиском нужной информации, записанной на бумаге.
Мне уже приходилось рассказывать об истории некоторых методов организации данных — картотеках, скоросшивателях и системах вертикального хранения документов. Эти методы, появившиеся в эпоху научной и промышленной революций, предполагали разделение массива неструктурированных данных на единообразные блоки, которыми можно было легко манипулировать. Сегодня же речь пойдет о способе упорядочивания информации без ее дробления.
С этим способом знаком любой, кто пользовался нехудожественными (научными, научно-популярными, справочными) книгами на бумаге. В конце таких книг, рядом со списком использованной литературы, обычно помещаются несколько указателей — именной, предметный, географический — которые показывают читателю, на каких страницах идет речь о соответствующем предмете.
Считается, что указатели в их современном виде появились в Парижском университете на рубеже XII и XIII веков, а к 1300 году ими были снабжены главные книги того времени — труды отцов христианской церкви и Аристотеля. В это же время указатель эволюционирует до новой формы — конкорданса.
Конкорданс (также известный как конкорданция или симфония) — это алфавитный указатель всех слов, встречающихся в книге, с приведением цитат, где эти слова встречаются. Именно за счет цитат конкорданс помогал не просто находить в тексте определенное слово, но и оценивать, как часто и в каких контекстах оно встречается.
Найти все случаи употребления всех слов — задача непростая, требующая большого количества времени и сил; а итоговый объем цитат для каждого слова может легко превысить объем изначального текста. Поэтому исторически конкордансы составлялись только для самых важных книг, первой из которых была Библия.

Первый конкорданс Библии был создан в 1230–39 годах парижскими монахами-доминиканцами под руководством Гуго де Сен-Шера. Он был все еще близок к указателю и содержал не полноценные цитаты, а только ссылки на страницы и абзацы, где содержалось нужное слово. Уже к 1250 году появился полноценный конкорданс Библии с цитатами, и после этого они стали создаваться постоянно: для разных частей (Старого Завета, Нового, Псалтири) для текстов на иврите и на греческом, затем для переводов на национальные языки…
Позднее, в более светскую эпоху, начали появляться конкордансы и нерелигиозных произведений: например, в 1845 году британская писательница Мэри Коуден Кларк опубликовала конкорданс к пьесам Уильяма Шекспира. Его составление заняло двенадцать лет, а публикация — четыре года. В 1911 году в США был выпущен конкорданс произведений Уильяма Вордсворта, собранный всего за семь месяцев — но его созданием занимались 67 человек. В целом составление конкордансов было настолько долгим и трудным, что за него почти никто не брался.

Ситуацию перевернуло появление электронного цифрового компьютера. Несмотря на то, что первые компьютеры были предназначены только для математических вычислений, их создатели сразу же начали искать им новые применения. К примеру, уже в 1950 году компьютер ENIAC рассчитал первый прогноз погоды (об этом я рассказывал в предыдущей статье); а в 1954 году был впервые продемонстрирован машинный перевод. Поэтому неудивительно, что компьютер сразу же попытались приспособить и для поиска информации в тексте.
Еще в 1949 году один из создателей ENIAC Джон Мокли выдвинул идею оцифровки всей Библиотеки Конгресса США (на тот момент около десяти миллионов книг) для того, чтобы искать там нужную информацию при помощи компьютера. По оценке Мокли, один полнотекстовый поиск можно было выполнить за двадцать часов. А всего через несколько лет появилась и первая возможность проверить эту гипотезу.
В середине 1950-х годов американский священник Джон Уильям Эллисон обратился в компанию Remington Rand, производителя вычислительной техники, с предложением создать новый конкорданс Библии. Эллисон, выпускник Гарвардского университета, не понаслышке знаком с этой сферой: он уже использовал компьютер Harvard Mark IV для сравнения разных вариантов Евангелия от Луки. Теперь он предложил использовать Univac, первый производившийся серийно компьютер, для составления нового конкорданса.
Univac разработали создатели ENIAC — Мокли и его коллега Джон Преспер Эккерт (Remington Rand приобрела их компанию в 1950 году). Компьютер состоял из шести тысяч электронных ламп, весил больше семи тонн и занимал площадь в 35 квадратных метров.

В то время главным был конкорданс Библии, составленный американским богословом Джеймсом Стронгом и впервые опубликованный в 1890 году. Зачем же Эллисону понадобилось создавать новый? Дело в том, что в 1952 году вышел новый, перевод Библии, адаптированный к изменениям, произошедшим в английском языке. Некоторые слова поменялись, поэтому конкорданс Стронга перестал быть исчерпывающе точным.

Remington Rand согласилась с доводами Эллисона и приступила к созданию нового конкорданса. Все началось с переноса Библии на машиночитаемый носитель. Пять машинисток набрали текст, используя Unityper — специальные пишущие машинки, которые писали не только на бумаге, но и на магнитной ленте. Работа заняла пять месяцев. Получилось четыреста катушек ленты, запись на которых имела достаточно низкую плотность; их перезаписали — с высокой плотностью — всего на четыре катушки.
Однако Univac не был снабжен текстовым редактором и не подчеркивал опечатки. Чтобы избежать ошибок, текст Библии записали еще на один носитель — перфокарты. Этим занимались еще десять операторов. Получившиеся две тонны перфокарт загрузили в конвертер, который перезаписал данные на магнитную ленту. Оба набора лент были загружены в компьютер, который сравнил их и указал на все различия; это позволило исправить опечатки.
После этого компьютеру поручили разделить весь массив текста на отдельные слова, указав при этом точный адрес каждого из них — книгу, главу, стих, строку и порядковый номер на строке. За пятьдесят часов Univac превратил четыре катушки в 63. Очевидно, что в конкорданс не нужно было включать служебные слова — артикли, предлоги, союзы и частицы. Эллисон составил список из 131 служебного слова, которые нужно было исключить из рассмотрения. Благодаря этому 63 катушки магнитной ленты превратились в 26 (оказалось, что Библия на шестьдесят процентов состоит как раз из служебных слов).
Наконец можно было запрограммировать Univac на составление самого конкорданса. Программист Эл Босганг потратил тринадцать недель и написал программу, состоящую из 1800 команд. Компьютер использовал ключевые слова, отделенные от служебных, для поиска по полному тексту Библии. Найдя слово, он должен был определить, где оно находится: в начале, середине или конце предложения. Каждому из этих вариантов соответствовали разные команды по извлечению цитаты.

За сто часов Univac произвел поиск и записал на магнитную ленту все ключевые слова и цитаты, в которых они встречались. Еще сто часов понадобилось для того, чтобы расставить их в алфавитном порядке. Последней операцией стала перезапись данных с низкой плотностью на магнитную ленту, которая могла считываться механическим печатающим устройством Uniprinter. Распечатанные листы представляли собой полный конкорданс Библии, готовый к типографскому набору и публикации.
Из печати новый конкорданс объемом 2 157 страниц вышел в 1957 году. Его составление заняло около 1 300 часов; для сравнения, Стронг потратил на эту работу тридцать лет. С самого начала проект Эллисона и Remington Rand вызвал интерес прессы. Статьи о нем поместили не только специализированные издания Publishers' Weekly и Systems, но и общедоступные Life и Popular Science. Позднее информация о новом конкордансе попала в сборники, посвященные применениям вычислительной техники в науке и информационному поиску.

Практически сразу компьютер стал главным инструментом для составления конкордансов, благодаря чему их создание стало простым и дешевым. Появились конкордансы самых разных произведений, от поэзии Шарлотты Бронте и Дилана Томаса до трудов Чарльза Дарвина и «Сокровищницы Дао». Если в предыдущие эпохи составление даже одного конкорданса было тяжелейшим трудом, то в XX веке оно стало едва ли не развлечением. Например, Тодд К. Бендер стал автором девяти конкордансов и соавтором 22.
Интересно, что Remington Rand долго использовала опыт, полученный при составлении конкорданса. Австрийский ученый Манфред Таллер вспоминал, как в 1980-х годах работал с базами данных на магнитной ленте и был очень удивлен обнаружив в одной из инструкций «большие фрагменты из Библии. Видимо, Univac использовал проект Эллисона как стимул к разработке новых методов сортировки».
Если вы хотите узнать, как развивались базы данных после Univac, от мейнфреймов и до облачных хранилищ, приходите на бесплатный вебинар Центра непрерывного образования факультета компьютерных наук ВШЭ «Путь хранилищ данных: от первых СУБД до облачных платформ», который состоится 1 октября в 19:00 (по Москве).
Новаторство проекта Эллисона трудно переоценить: он стал пионерским и в области обработки естественного языка, и в применении компьютера к задачам гуманитарных дисциплин (сегодня это целая отдельная сфера — digital humanities). Программа, написанная для составления конкорданса, стала одной из первых поисковых систем — как и появившиеся в 1990-х годах поисковики, она индексировала отдельные блоки информации, а затем осуществляла по ним поиск. Как заметил цитировавшийся выше Таллер: «Гуманитарные дисциплины стимулируют развитие недостающих технологий. Именно так и должно быть».
ezguru
наверное потому-что библия гарантировано врёт=недоговаривает - официальная версия совремённых учёных что из множества редакции да всех найденых мануалов невозможно даже суперкомпьютерами восстановить изначальный смысл: так то христиане и не отрицают этого называясь не религией а верованием
...
глянул что в "4 октября 1999, Амман, Иордания" умер главный индексер достоверной инфы и он это делал в ручную (а до него так плотно не индексировали) хотя мог собрать любую технику да дома у него был лифт на солнечных батареях - идут споры об его мировозрении но вот составленые для библиотек индексы не опровергают (там же его находили за работой)
Sirion
Относительно какой именно правды Библия врёт?