На этот раз мы расскажем о событиях далекого прошлого.

А именно про Mundaneum – работающий бумажный интернет Поля Отле. 100 лет назад он уже обрабатывал 1500 поисковых запросов в год со всего мира. Это было за 55 лет до того, как Тед Нельсон представил гипертекст, за 79 лет до рождения Всемирной паутины и на 84 года раньше появления W3Catalog.

Прочитайте несколько принципов работы поисковой системы Поля Отле. Знакомо?

  • Книга – надёжный, но неудобный источник информации, поскольку требует длительного поиска ответа на конкретный вопрос.

  • Документы, содержащие ответы на вопросы пользователей, должны быть небольшими, удобного универсального формата.

  • Документы должны ссылаться друг на друга, раскрывая информацию и дополняя её.

  • Нужно индексировать разные источники. Не только книги и справочники, но и фотографии, прессу и даже открытки. Соответственно, в результатах поиска могут быть не только текстовые документы, но и медийные.

  • Запрос пользователя должен быть вначале обработан до универсального, в виде ключевых слов – а по ним уже должен идти поиск.

В соответствии с ними и работал Mundaneum. Это проект, опередивший своё время по всем фронтам – и морально, и технологически. Тем удивительнее, что это была не просто идея, а работающая система. Причём проект действовал с разной мощностью целых 29 лет – с 1910 по 1939-й.

Самое обидное, что его нельзя назвать дедушкой интернета и поисковых систем. Mundaneum был заброшен к началу Второй мировой войны, вскоре умер его создатель, а большинство идей не получили дальнейшей жизни и разрабатывались независимо от него другими учеными. Впрочем, обо всём – по порядку.

Кто такой Поль Отле

Утомлять биографическими подробностями не будем, но кое-что важно упомянуть для понимания. Поль родился в 1868 году в Брюсселе. Он не получал классического школьного образования, рос среди книг и учился на дому. Соответственно, и классических установок о границах возможного ему тоже не дали. Впоследствии он выучился на юриста в Брюссельском свободном университете, но работа по специальности была недолгой.

В 24 года Поль написал свою первую значимую научную работу. В виде эссе он высказал критику в адрес библиотечной системы и выдвинул тезис о том, что книга в её классическом виде должна перестать быть основным источником знания.

В эти же годы он познакомился с другим юристом, будущим лауреатом Нобелевской премии мира, Анри Лафонтеном. Он также посвятил жизнь не столько юриспруденции, сколько вопросам систематизации больших данных.

С чего началась работа по созданию поисковой системы

Вместе ученые основали первый в мире Международный институт библиографии (Repertoire Bibliographique Universel). Работа в нём ещё раз подтвердила правильность выводов, изложенных в эссе: правильная система классификации данных – залог их успешного использования.

В частности, Отле и Лафонтен разработали систему категоризации, которая и сейчас используется во многих библиотеках – Универсальную десятичную классификацию (УДК). Она не была полностью их разработкой – что-то было позаимствовано из чужих научных работ. В частности, десятичная классификация была взята у американца Мелвила Дьюи, а фасетная – у индийца Ш.Р. Ранганатана. Однако они были первыми, кто собрал это в единую систему и реализовал её на практике.

Система основана на десятичных кодах и специальных знаках для уточнения области знания. Например, вот так выглядит часть оглавления верхнего порядка:

00

Наука в целом (информационные технологии – 004)

1

Философия. Психология

2

Религия. Теология

30

Теория и методы общественных наук

31

Демография. Социология. Статистика

32

Политика

33

Экономика. Народное хозяйство. Экономические науки

34

Право. Юридические науки

35

Государственное административное управление. Военное искусство. Военные науки

Есть также синтаксис запросов, который включает более 20 символов. Например, 1+2 – это объединение: «Философия, психология, религия и теология».

А если углубляться в один из разделов, классификация будет выглядеть вот так:

004

Информационные технологии. Компьютерные технологии. Теория вычислительных машин и систем

004.4

Программные средства

004.43

Языки программирования

004.436

Дескриптивные языки

004.436.2

Языки описания аппаратных средств

Какую проблему предстояло решить

Введение карточек упростило и ускорило поиск нужной книги в библиотеке, но главный проект был впереди. Предстояло выйти за границы книг и сделать информацию доступной по конкретному запросу.

Отле поставил непомерно амбициозную для своего времени задачу. Она звучала так: наладить быстрый (в рамках существующих технологий) доступ к любой информации для любого жителя планеты. Очевидно, что для этого требовалось изрядное финансирование, и удача улыбнулась учёным в 1910 году.

Идея показалась брюссельскому правительству перспективной, был выделен бюджет и достаточно большое помещение под рабочие офисы и картотеку. В 1910 году Отле и Лафонтен представили миру Mundaneum – архив для хранения уже не книг, а информационных карточек.

Как выглядела реализация

Mundaneum был разделен на 2 части. Самая большая – архив, в котором хранились десятки тонн бумажных носителей в виде карточек. Одна карточка содержала сжатую информацию на одну узкую тему. Для быстрого поиска по всем материалам как раз применялась УДК. В архив регулярно поступала свежая информация – не только для пополнения карточек, но и для хранения справочников, газет, фотографий и даже плакатов.

Вновь пришедшие материалы обрабатывались сотрудниками Mundaneum, на их основе создавались новые карточки и дополнялись старые, а также создавались связи между ними с помощью синтаксиса УДК. К 1920 году в архиве было 12 залов, 12 млн карточек и больше 200 тысяч других материалов.

Запросы от клиентов приходили по почте. Каждый запрос обрабатывали вручную. Его переводили на французский, сокращали до ключевых слов, необходимых для поиска, и передавали для поиска ответа. Далее сотрудники, используя картотеку, находили нужные карточки, копировали их, переводили на язык оригинала запроса и отправляли обратно.

Спрашивать можно было о чем угодно – от рецепта пирога до истории правящей испанской династии. Уже в 1912 году Mundaneum обрабатывал около 1500 запросов в год. Вероятно, Отле был бы искренне удивлён, если бы узнал, что ему удалось на минимальной технологической базе создать все элементы поисковой системы.

Mundaneum

Современные поисковые системы

Интерфейс 

Почтовая служба

Веб-интерфейс

Индексация новых материалов

Вручную

Поисковый робот

Хранение проиндексированных элементов

Бумажное, в архиве

Цифровое, на серверах дата-центра

Обработка поискового запроса

Ручное сокращение до ключевых слов

Автоматический перевод в понятный системе язык

Поиск материала по базе проиндексированных материалов

Вручную, по УДК

Автоматически, на основании соответствия запросу раскластеризованных проиндексированных материалов

Формирование результатов

Единичный результат на основании соответствия запроса и информации в карточках

Множественные результаты на основании алгоритма ранжирования

Выдача результата пользователю

Почтовая служба

Веб-интерфейс

Пока запросов было немного, система надежно работала. Первые сбои стали появляться с ростом их числа. И неудивительно – вся работа Mundaneum была основана на ручном труде. УДК помогала работе и упрощала её, но не более того. Не сильно помогло даже расширение штата. Проблемы вызывало ещё и то, что количество ежегодно поступающей новой информации увеличивалось, и сотрудникам приходилось заниматься не только обработкой запросов, но и пополнением архива.

Исходя из этого, Отле пришёл к выводу, что бумажные носители информации, как и связь посредством почты, устарели. После чего он приступил к разработке улучшенной системы на базе телекоммуникационных технологий. В 1934 году вышли две его работы: «Monde» («Мир») и «Traité de documentation» («Характеристика документации»).

Стимпанк-версия интернета

Прежде чем читать этот текст, напомним и подчеркнем: это 1934 год. 88 лет назад. До появления первой программируемой цифровой машины Z1 – 4 года. 12 лет до изобретения транзистора.

Всё во вселенной будет описано и задокументировано. В этом виде мы зафиксируем меняющуюся картину мира, настоящее отражение его памяти. Любой человек сможет удаленно, в виде проекции на экране, читать только тот текст, который соответствует его интересам. Из своего кресла каждый сможет видеть весь мир целиком и отдельные его части.

Закон упорядочивания информации, изложенный в «Traité de documentation», говорил о том, что документы нельзя понимать в отдельности от других – его смысл становится понятным только через влияние на другие документы.

В «Monde» была описана сеть для обмена данных. «Телефонокниги» описывались как персональные устройства, соединённые через телефонную сеть. Через неё пользователи могли бы получать доступ к данным Mundaneum, просматривать текст и изображения, создавать и распространять собственные документы, а также общаться друг с другом.

В книгах были описаны также прообразы сканеров, планшетов и даже виртуальной реальности. Однако блестящие задумки не смогли спасти Mundaneum. По мере увеличения числа запросов система всё чаще стала давать сбои. Все идеи Отле, изложенные в его научных трудах, могли бы решить эти проблемы, но для них в мире не было соответствующей материально-технической базы.

Эти сложности, а также растущее напряжение между странами Европы привели к тому, что в 1934 году правительство решило прекратить финансирование Mundaneum. До 1939 года система продолжала работать в меру финансовых возможностей её создателей – и окончательно остановилась после того, как немцы вошли в Брюссель.

Как сейчас выглядит Mundaneum

После смерти Отле в 1944 году остатки Mundaneum несколько лет перемещали из одного помещения в другое, пока они не остались лежать невостребованными в старом здании Свободного университета.

Только в начале 90-х начались работы по восстановлению оригинальной системы. Профессор Рейвард из университета Чикаго, который защищал диссертацию по работе Поля Отле, решил возродить проект в виде музея.

Задумка удалась – незадолго до конца ХХ века он был открыт. А в 2012 году в знак заслуг Отле Google объявил о сотрудничестве с возрожденным Mundaneum.

Комментарии (16)


  1. saipr
    26.01.2022 18:59
    +5

    Это просто здорово, что мы помним пионеров своего дела! Спасибо!


  1. Exchan-ge
    26.01.2022 19:43
    +7

    Документы должны ссылаться друг на друга, раскрывая информацию и дополняя её.


    «СЕПУЛЬКИ — важный элемент цивилизации ардритов (см.) с планеты Энтеропия (см.). См. СЕПУЛЬКАРИИ».
    Я последовал этому совету и прочёл:
    «СЕПУЛЬКАРИИ — устройства для сепуления (см.)».
    Я поискал «Сепуление»; там значилось:
    «СЕПУЛЕНИЕ — занятие ардритов (см.) с планеты Энтеропия (см.). См. СЕПУЛЬКИ».

    (с) юмористический фантастический рассказ 1956 года Станислава Лема из цикла «Звёздные дневники Ийона Тихого».


    1. Babarij
      27.01.2022 10:39
      +1

      " — У вас… нет… жены?! — пробормотал почерневший продавец, глядя на меня с ужасом. — И вы хотите сепульку?.. Без жены?"

      Приятно встретить человека, которому тоже не дают покоя вопросы сепуления )) А Лема и сейчас приятно почитать, из него под каждой второй статьей цитаты постить можно.


  1. Exchan-ge
    26.01.2022 19:53
    +1

    Прежде чем читать этот текст, напомним и подчеркнем: это 1934 год. 88 лет назад. До появления первой программируемой цифровой машины Z1 – 4 года. 12 лет до изобретения транзистора.

    В «Monde» была описана сеть для обмена данных.


    Сети Telex работают с 1933.

    К 1930 году была создана конструкция стартстопного телеграфного аппарата, оснащённого дисковым номеронабирателем телефонного типа (телетайп). Этот тип телеграфного аппарата, в числе прочего, позволял персонифицировать абонентов телеграфной сети и осуществлять быстрое их соединение. Практически одновременно в Германии и Великобритании были созданы национальные сети абонентского телеграфа, получившие название Telex (TELEgraph + EXchange).

    На основании международных соглашений 1930-х годов телекс-сообщение было признано документом, а телекс, соответственно, видом документальной связи.

    В 1931 году компанией AT&T в США была запущена национальная сеть абонентского телеграфирования, подобная Telex, которая получила наименование TWX (Telegraph Wide area eXchange). В СССР телетайпы стали работать с середины 50-х годов.


    1. ZhilkinSerg
      26.01.2022 20:04
      +2

      Да забейте - эта статья вообще не про сеть. Тут первичны каталогизация, библиография и библиотечное дело, а не технические особенности реализации всего этого.


      1. Exchan-ge
        26.01.2022 20:59
        +3

        эта статья вообще не про сеть.


        Я про:
        напомним и подчеркнем: это 1934 год.


        Есть тенденция считать, что все ИТ — это последняя четверть ХХ века, а до этого были темные века с отдельными гениальными прозорливцами :)

        (В 1985 году наш отдел отправлял и получал инфу по телексу, подключенному к всесоюзной сети, а на предприятии была специальная комната, с телексом/телетайпом, куда простых инженеров никогда не пускали. И это во времена, когда про Арпанет/Интернет у нас никто слыхом и не слышал :)

        Тут первичны каталогизация, библиография и библиотечное дело


        Так и это все было задолго до 1934…

        Термин «каталогизация» в библиотековедении употреблялся уже XVI веке. В созданных в XVII—XVIII веках многочисленных руководствах по библиотечному делу большое место занимали теоретические вопросы, связанные с каталогами. В XIX веке каталогизация становится научной дисциплиной, имеющей несколько самостоятельных направлений. Первая русскоязычная работа по каталогизации — труд русского библиотековеда Собольщикова «Об устройстве общественных библиотек и составлении их каталогов» (1858). Значительный вклад в изучении теории и истории библиотечных каталогов, внесли библиотековеды — Ч. Э. Кеттер, Д. Д. Браун, Ш. Р. Ранганатан
        Англоязычные библиотеки имеют общие стандарты каталогизации с начала 1800-х годов.

        Первый такой стандарт приписывается Антонио Паницци, хранителю печатных книг Библиотеки Британского музея. Его 91 правило, опубликованное в 1841 году, легло в основу стандартов каталогизации


    1. Babarij
      27.01.2022 10:34

      Telex - да, с 30-х годов. Но стоит же понимать, что книги не пишутся за 2 дня. Если в 1934-м ее издали, то писали ее как минимум несколько лет. Это если я правильно понял и вы к тому, что идеи-то в них были не такие уж и новые.


      1. Exchan-ge
        27.01.2022 11:40
        +1

        Если в 1934-м ее издали, то писали ее как минимум несколько лет.


        «В 1931 году компанией AT&T в США была запущена...» (с) выше

        и вы к тому, что идеи-то в них были не такие уж и новые.


        Да.
        В свое время (примерно лет 50 назад) журнал Техника-молодежи опубликовал на своей третьей странице обложки ряд статей о сбывшихся предсказаниях известных фантастов.
        Тема меня заинтересовала и запомнилась.
        Много лет спустя Интернет открыл доступ к более широкому доступу к информации и я, случайно, стал то и дело натыкаться на источники, послужившие для фантастов исходной идеей в их предсказаниях.
        По моим наблюдениям, оригинальных идей, не почерпнутых фантастами из научно-популярных изданий своего времени, оказалось крайне мало, а реальные предсказания (множ.), по факту, были только у Уэллса и С. Лема (еще А. Кларк с предсказанием спутников связи (единст.)

        С этого момента я стал подвергать сомнению все фразы «эта идея впервые в мире была высказана в книге такого-то имярек» :)

        «Новое — это хорошо забытое старое» (с)


  1. fotobred
    27.01.2022 09:11
    -1

    правильная система классификации данных – залог их успешного использования

    Возможно я сильно ошибаюсь, но "классификация данных" уже сильно устарела..
    Попробую обосновать на паре ссылок на объективную реальность:
    - давно уже обсуждается WEB 3.0 - что Это? из чего и как? И один из вариантов был - Семантическая сеть
    - ОС Фантом Дмитрия Завалишина - "Всё есть объект"

    Как можно классифицировать смысл и каталогизировать взаимосвязи разнородных объектов?
    Я понимаю, что многого не понимаю, но может мне смогут это объяснить?
    // за 20 лет я понапридумывал несколько вариантов решения, но ни разу не нашел того, кого бы это интересовало..


    1. man_of_letters
      27.01.2022 13:02
      +2

      Web 3.0 = пользователи не только создают контент, но хранят его и коллективно хостят сервисы, и прочие следствия децентрализацованных сетей.

      "классификация" не может устареть. Классификация - это отличие, отделение одного от другого, работы с информацией подразумевает разные формы выделения объекта из фона.

      Данные - это группа символов. Информация - это значение, стоящее за группой символов. Смысл - это набор функциональных взаимосвязей между сущностями, который служит моделью кусочка настоящей или выдуманной реальности.

      оперирование смыслом - это прорыв которого ждут в машинном обучении. Ходят уже рядом, заставляя большие текстовые модели обнаруживать заранее заданные смыслы.

      Объекты и связи между ними упорядочиваются семантическими графами. Известный стандарт rdf, например. Упрощенно: есть иерархия видов объектов, есть иерархия видов отношений между объектами, на их основе можно описать устройство чего-либо согласно целям.

      Классифицировать смыслы можно точно так же, но там очень высокий уровень многосвязанности, руками не получится создать даже имеющий ценности пример, такая работа под силу только предполагаемой машине


      1. fotobred
        27.01.2022 15:14

        У меня опять не получается объянить своё понимание проблеммы
        - попробую по другому

        Почти 40 лет назад мне было поручено разработать конструкторско-технологический классификатор - типа молодой специалист.. вдруг сможет. Я не смог. Встал на примитивном цилиндре: ось, вал, шпилька, шкант, ...
        С одной стороны это одно и то же, с другой - совершенно разные вещи.

        А если вспомнить серию статей "Философия информации" Александра Масляев - получаем еще больше противоречий для попытки классификации со строгой иерархией.
        Информация появляется из данных только в определенном контексте.
        Можно приблизительно и с некоторыми допущениями, действительно описать, "согласно поставленным целям", но только для решения определенной задачи.

        Иногда не надо решать новые задачи старыми инструментами - это подход "эффективных" менеджеров

        Есть бородатый анекдот про старого профессора, ИИ и чайник на плите.


        1. fotobred
          27.01.2022 15:24

          к примеру какой смысл в сочетании слов "Агата Кристи"
          в зависимости от контекста -английская писательница- или -рок-группа-
          как это модно загнать в УДК или какойнибудь другой 128 разрядный код?


  1. sergej_pipets
    27.01.2022 19:53

    До появления первой программируемой цифровой машины

    Цифровая программируемая машина табулятор Германа Холлерита применялась в переписи населения США в 1890-м году. Т.е., через "минус 44 года после «Monde» («Мир») и «Traité de documentation» («Характеристика документации»)".

    Если бы Поль Отле при своей системе каталогизации использовал такие табуляторы, то в год он мог бы обрабатывать не полторы тысячи запросов, а полтора миллиона (при соответсвующем увеличении операторов на вводе запросов в машину).


    1. DAN_SEA
      28.01.2022 15:00

      Я думаю, тут проблема в том, что в наше время мы привыкли к доступности информации. И когда видим что кто-то не использует предыдущие наработки - у нас сразу возникает протест: "ну как же так то?". Но тут нужно сделать скидку на время, когда это происходило.

      Ведь даже всего каких то даже 30 лет назад проблема поиска информации была весьма насущной - я лично сталкивался с тем, что не мог найти нужное в библиотеке. А мой друг, зашедший за пару часов до меня - мог... То есть, другими словами: а) раньше информацию искать было в принципе сложно; б) были постоянные сбои в её поиске.

      А теперь прикинем, каково это было в самом начале разработок, описанных в статье: чтобы опереться на предыдущие наработки, нужно было в условиях отсутствия централизованной базы знаний, постоянно мониторить различные источники и учесть всё (что нереально). Поэтому и "изобретение велосипеда"!

      Даже сейчас, лично я сталиквался с такой устаревшей проблемой: поиск аналогов в базе патентов. Что-то в виде электронного текста, что-то в виде сканов, без электронного текста...Проблема проблем.


      1. sergej_pipets
        28.01.2022 15:16

        Иронично, что создатель универсального информационного хранилища Munaneum, называемого также "город знаний", не смог в своём детище найти серийно выпускаемое устройство для обработки унифицированой информации...

        Кстати, я о табуляторе узнал не из интернета. Из любимой в детстве бумажной книги по истории вычислительной техники. Книга издана в 1959-м году. Про табуляторы в ней тоже есть. И про фирму IBM ;-)

        А вот глава об электронных библиотеках (перечитал её - она и предлагает табуляторы для библиотек): http://informaticslib.ru/books/item/f00/s00/z0000003/st040.shtml


      1. Exchan-ge
        29.01.2022 00:22

        Ведь даже всего каких то даже 30 лет назад проблема поиска информации была весьма насущной — я лично сталкивался с тем, что не мог найти нужное в библиотеке.


        Это мелочи.
        Попробуйте найти чертеж детали, обозначенной как (примерно) ДПРК 100.435.555.667. РПБ, которая использовалась в сборках (далее следует поток аналогичных буквенно-цифровых обозначений), которые, в свою очередь, использовались в установках АЦБж0,3-66/70 (понятно, что установок тоже много :)

        При этом вся информация хранится только в бумажном виде, по установкам, естественно.
        Известно, что чертеж точно где-то есть — переплетен с другими в одном из альбомов синек, лежащих на стеллаже размером 6х3 метра (кстати, вес одного альбома — не менее 3 кг :)
        Никаких каталогов, предметных указателей и проч. — чертежи делались не только разными отделами, но и разными организациями в разных городах.
        (интернета нет :)

        Срок, как всегда — через пять минут.

        Библиотека, с ее МБА, доступом к ЦНТИ и тщательно составленными каталогами — это крутой хайтек…

        Реалии докомпьютерного 1985 года…