Директор Wayback Machine Марк Грэхем описывает масштабы всеми любимого архива




Как бы сервисы по подписке вас ни убеждали, на Amazon или Netflix можно найти далеко не всё. Хотите почитать старую книгу Марка Джаджа, друга Бретта Кавано (или посмотреть их школьный фотоальбом)? Интересно посмотреть на старую рекламу сигарет? Как насчёт изучения крупнейшего собрания тибетской буддистской литературы в мире? Сегодня за всем этим можно обратиться только в одно место – и это не Google или какой-нибудь из пиратских сайтов, которые вы можете посещать (или не посещать).

«У меня есть правительственное видео о том, как правильно мыть руки или готовиться к ядерной войне», — говорит Марк Грэхем, директор проекта Wayback Machine в интернет-архиве. «Мы легко можем составить список всех файлов формата ppt со всех сайтов домена mil – индустриальный военный комплекс PowerPoint».

Грэхем недавно пообщался с несколькими небольшими группами посетителей конференции Online News Association (ассоциации онлайн-новостей) 2018 года, и редакции журнала Ars удалось попасть в одну из них. Позднее он сделал полную презентацию конференции, которую теперь можно скачать в аудиоформате. Первый вывод на основе этой презентации состоит в том, что масштаб интернет-архива сегодня так же сложно представить, как масштаб всего интернета.

По крайней мере, понять это давно существующее некоммерческое физическое пространство довольно легко, поэтому Грэхем начинает оттуда. Сегодня главный штаб работает в старой церкви (с до сих пор нетронутыми скамьями) в Сан-Франциско, с командой сотрудников в 200 человек. Также архив поддерживает недалеко расположенный склад, где хранятся физические носители данных – и не только старые книги, но и такие вещи, как виниловые пластинки. По этому поводу Грэхем шутит, что основная единица измерения на складе – грузовой контейнер. Архив пополняется таким количеством материала каждые две недели.

Сейчас компания выступает второй по объёму сканирования книг в мире, после Google. Грэхем оценивает текущий объём выполненных работ, как чуть более четырёх миллионов. У архива даже есть список желаемых книг на следующие 1,5 млн сканов, включая всё, что процитировано в Википедии. Да, Wayback Machine работает над тем, чтобы гарантировать, что вы не наткнётесь на страницу 404, роясь в какой-нибудь кроличьей норе в Вики (Грэхем недавно рассказал ВВС, что их боты восстановили почти шесть миллионов страниц, потерянных после "гниения ссылок" [исчезновения страниц и сайтов, на которые ссылаются другие / прим. перев.]). Сегодня все книги, опубликованные до 1923 года, свободны для скачивания из интернет-архива, а многие экземпляры после этого момента можно взять на время в виде цифровой копии.



Конечно, в интернет-архиве сегодня хранится не только текст. В его коллекции вышедших в эфир передач есть более 1,6 млн новостных выпусков, с возможностью поиска по подписям, появлявшимся в кадре и доступом к свежим новостям (выпуски удерживают на 24 часа, а потом выдают посетителям двухминутными отрезками, доступными для поиска). Растущая коллекция аудиозаписей и музыки включает в себя радионовости, подкасты, физические носители (например, коллекцию из 200 000 пластинок на 78 оборотов, недавно пожертвованная Бостонской библиотекой). Организация также может похвастаться огромной коллекцией классических видеоигр, которую кто угодно может загрузить в браузерном эмуляторе в исследовательских или развлекательных целях. Официально в неё включено более 300 000 программ, «поэтому сегодня вы реально можете поиграть в Oregon Trail на старом компьютере Apple C в браузере – без рекламы и отслеживания пользователей», — говорит Грэхем.

«Некоторые могут называть нас накопителями, — говорит он. – Мне нравится говорить, что мы – архивариусы».

Грэхем говорит, что в целом интернет-архив пополняется на четыре петабайта каждый год (4 млн гигабайт). Сегодня их данные тянут на 22 Пб – при этом интернет-архив реально занимает 44 Пб. «Просто мы – параноики, — говорит Грэхем. – Машины могут выйти из строя, а нам надо поддерживать репутацию». Такой подход однажды позволил некоммерческой организации пережить потерю стоимостью в $600 000 – и без каких бы то ни было потерь данных.



Универсальный доступ к знаниям (и фактам, к такому огромному количеству фактов)


Миссия интернет-архива за 22 года его существования была простой: «универсальный доступ ко всем знаниям». В эру веба это означает развёртывание небольшой армии ботов, и Грэхем отмечает, что специальные программы интернет-архива постоянно находятся в поисках контента. Примерно 7000 одновременных процессов ползают по вебу и скачивают 1,5 млрд вещей в неделю. На некоторые данные, вроде домашних страниц Google или The New York Times, они могут посмотреть несколько раз в ден; на другие они заходят не так часто.

«Мы пытаемся забрать всё, но это сложно, — отмечает Грэхем. – Встраиваемый контент, яваскрипты, интерактивные приложения – некоторые вещи у нас не получается скачать, но мы над этим работаем».

В эту категорию попадают такие эфемерные носители, как Snapchat или каналы Telegram, и Wayback Machine поддерживает контакты с теми организациями, архивы медиа или сервера которых подвержены риску (Грэхем, например, отметил недавнее партнёрство с Египтом).

В итоге можно сказать, что Wayback Machine развилась в нечто более полезное, чем простые путешествия в старые записи в LiveJournal. Наша редакция много раз пользовалась этим сервисом, для отслеживания всего, от изменений в правилах сетевой нейтральности от Comcast до изменений описания Defense Distributed. Грэхем вспоминает недавнюю спорную ситуацию 2018 года, когда Трамп написал в твиттере, что Google не рекламирует ежегодное послание президента, как делал это в прошлом. Перед тем, как ответить на это, Google обратилась к интернет-архиву с вопросом, нет ли у них копии их страницы.

«Обожаю Google, но в их работу не входит изготовление копий домашней страницы каждые 10 минут, — говорит Грэхем. – Это наша задача».

Грэхем рассказывает, что Wayback Machine сделала 835 копий домашней страницы Google в тот день в январе 2018. «Поэтому мы смогли всё прояснить. Мы не занимаем ничью сторону, мы выступаем за правду».

Сходную роль сайт сыграл, когда Белый Дом удалил все архивы новостей, и многие организации (не только новостные, но и защитники окружающей среды или Американский союз защиты гражданских свобод) обратились за снимками. И свидетельства, предоставленные Wayback Machine, принимали в суде. «С простановкой временных меток происходит много всего», — добавляет он. Как бывший вице-президент NBC News, Грэхем с гордостью указывает на то, что этот сайт сканировали примерно пять раз в день.

Чтобы улучшить результаты деятельности, как говорит Грэхем, Wayback Machine постепенно работает над улучшением своих инструментов, предназначенных для пользователей. Слева внизу на главной странице ресурса можно обнаружить, к примеру, доступный для всех API. Грэхем рассказывает, что люди используют его, к примеру, для создания инструментов по отслеживанию изменений, где можно вывести две копии сайта рядом и увидеть, что изменилось. Ещё один созданный пользователем инструмент, на который он обратил внимание, позволяет вам построить круговое дерево структурных изменений во времени.

Хотя, возможно, наиболее простой и эффективный инструмент предоставляет сам сайт Wayback Machine – он позволяет каждому вручную отправить ссылку на сайт для немедленного сохранения. «Если я гуляю в саду с кошкой, и вижу историю на Google News, я могу отправить её на принтер. Но сегодня я могу отправить её и в интернет-архив», — говорит Грэхем. Он оценивает, что таким образом делается сохранение примерно миллиона снимков в неделю.

«Без ложной скромности скажу, что наше покрытие довольно крупное», — говорит он. И неважно, находят ли что-то боты или начинающий активист, все мы можем просто быть благодарными за возможность отыскать старый контент.

Комментарии (2)


  1. zloe_morkoffko
    17.10.2018 10:57

    2 дня назад было уже habr.com/company/philtech/blog/426397


    1. phaggi
      17.10.2018 11:31

      Да, но там было довольно много критики по поводу качества перевода. Видимо, тут постарались перевести получше.