Когда интернет-архив забывает / forpes.ru

Главная
Когда интернет-архив забывает

Когда интернет-архив забывает +14

21.12.2018 07:00

SLY_G 3 4300 Источник

В интернете есть определённые организации, на работу которых мы привыкли ежедневно полагаться в надежде предотвратить превращение правды в эластичную или неопределённую субстанцию. Не обязательно таким методом, к которому стремятся такие глупые проекты, как Verrit, но, по крайней мере, способом, способным подтвердить, что вы не сходите с ума, что старый пост или статья, которую вы вроде бы читали, реально существует. Это может быть такое поверхностное действие, как чтение быстро удалённого твита через кэш Google, или же такое глубокое погружение в контент, как изучение архива ныне почившего сайта через Wayback Machine. Но что произойдёт, если архив становится менее надёжным и по якобы убедительным причинам решает прогнуться и удалить спорный материал, попавший в архив?

Несколько недель назад при записи подкаста речь зашла о старом блоге за авторством The Ultimate Warrior [Последний воин] – бодибилдера, ставшего хиропрактиком, ставшего профессиональным реслером, ставшего политическим оратором, склонным к напыщенным речам, выступавшим под своим реальным именем – да, Воин. Как описывал Барри Петески с блога Deadspin после того, как Воин умер в 2014 году, он был «безумным козлом», разглагольствуя в блогах и в студенческих кампусах по поводу инвалидов, гомосексуалистов, жителей Нью-Орлеана и многих других. Однако когда я решил поискать определённую запись в блоге, я увидел, что они были не просто удалены – сайта не было даже в архиве Internet Archive, вместо него висело сообщение об ошибке: «Этот URL был исключён из Wayback Machine».

Оказалось, что сайт Воина был удалён из архива уже несколько месяцев – это произошло вскоре после того, как Роб Руссо прошёлся по нему в статье для Vice Sports, обвинив WWE в лицемерии в связи с использованием фотографии Воина для рекламы «Месяца борьбы с раком груди». Кампания призывала женщин «выпустить своего внутреннего воина», но поскольку в своих блогах Воин желал смерти людям, пережившим рак, ситуация выглядела плохо. Руссо был удивлён тем, как архив удалил этот сайт «почти сразу после выхода моей статьи, буквально в течение недели» – так он рассказал об этом сайту Gizmodo.

Руссо подозревал, что за этим стоит WWE, однако представитель компании рассказал журналу Gizmodo, что они не имеют к этому отношения. Стив Уилтон, управляющий из Ultimate Creations, также отверг свою причастность к этому. Представитель Internet Archive рассказал Gizmodo, что архив был удалён по запросу, сделанному в рамках DMCA бизнес-менеджером компании Уилтона от 29 октября 2017 года, через два дня после публикации статьи в Vice.

За последние несколько лет восприятие сервиса Wayback Machine поменялось под влиянием политических настроений. Долгое время этот сайт оставался полезным инструментом для поиска содержимого сломавшихся ссылок, а теперь его считают арбитром правды и оплотом противостояния стиранию истории.

То, что сайты в архиве демонстрируют цифровой след и происхождение контента, не только полезно для журналистов, но и эффективно практически для любого человека, пытающегося отследить исчезающие веб-страницы. Учитывая это, тот факт, что Internet Archive практически не пытается бороться с запросами на удаление контента, становится проблемой. И это не единственный пример: когда админ сайта решает заблокировать робота Wayback при помощи настроек в файле robots.txt, то архив не просто прекращает обход сайта, но и удаляет всю его историю из публичного доступа.

Иначе говоря, если вы занимаетесь публикацией спорного контента и хотите избежать ответственности, существует, по меньшей мере, два стандартных способа удалить его из наиболее надёжного стороннего веб-архива в публичном интернете.

Для Internet Archive, быстрое реагирование на требования об удалении контента, обращённые ко вроде бы добросовестно используемым им копиям веб-сайтов, а также практика обработки robots.txt, немного уменьшают риски, зато идут вразрез с духом его деятельности. А если бы кто-то решил подать на сервис в суд из-за неподчинения требованиям, даже готовые, имеющиеся в распоряжении архива методы юридической защиты, могли бы обойтись невероятно дорого. И неважно, что использование материалов ничего не нарушает по любым стандартам. Если правообладатель делает подобную попытку, вам всё равно придётся защищаться в суде.

«В данном контексте пока ещё никто не пытался оспаривать добросовестное использование», — отметила Аннамария Брайди, профессор юриспруденции из Университета Айдахо и внештатный сотрудник Центра интернета и общества при Стэнфордской юридической школе. «Internet Archive – организация некоммерческая, поэтому она несёт большие риски, связанные с возможными судебными процессами. Учитывая размах их работы, то, что они архивируют практически всё, что есть в общем доступе в интернете, их риски феноменальны. Можно понять, почему они ведут себя осторожно, даже если это идёт вразрез с их основной миссией – создать точный исторический архив всего, что было в интернете, и помешать людям стереть свидетельства из их истории».

Internet Archive не стал отвечать на конкретные вопросы, связанные с обработкой robots.txt, его готовностью выполнять запросы на удаление, и то, довелось ли ему использовать в суде аргумент о добросовестном использовании материалов. Однако представитель сервиса отправил следующее сообщение:

Через несколько месяцев после запуска Wayback Machine в 2001 году мы участвовали в работе группы сторонних архивариусов, библиотекарей и адвокатов, составивший черновой набор рекомендаций по реагированию на запросы на удаление контента, который Internet Archive в результате принял как набор инструкций по поведению, и придерживался их в первые лет десять существования.

В этом году мы провели совещание с группой сходного состава, чтобы пересмотреть эти рекомендации и изучить возможную ценность их обновлённой версии. Мы ещё обсуждаем некоторые проблемы и надеемся, что весьма скоро сможем представить обновлённую информацию на нашем сайте, чтобы помочь обществу лучше понять, как мы относимся к запросам на удаление. Некоторые из наших мыслей по поводу robots.txt мы изложили в отдельной статье.

По сути, мы пытаемся найти баланс между беспокойством владельцев сайта и правообладателей, и интересом общественности, заслуживающей свободного доступа к как можно более полной истории интернета.

Учитывая всё это, вспомним, что Internet Archive всегда позиционировал себя, как библиотеку – разве это не должно иметь значение?

«В текущем законе об авторском праве, хотя там и есть особые случаи, дающие определённые права библиотекам, нет определения библиотеки», — пояснил Брэндон Батлер, директор информационной политики Библиотеки Виргинского университета. «По этому поводу правообладатели всегда возмущались, а также по поводу таких организаций, как Internet Archive, не представляющих собой 200-летние публичные или университетские библиотеки. Они часто утверждают, что боятся появления подложных библиотек, которые будут называть себя библиотеками, а на самом деле служить прибежищем пиратов». Единственным исключением, которое смог вспомнить Батлер, был тот случай с некоммерческой онлайн-библиотекой буддистских текстов American Buddha, которая обнаружила, что на неё подало в суд издательство Penguin, из-за нескольких книг, на которые оно получило права. «Суду было всё равно, что это место называло себя библиотекой; это не защитило их от обвинений в нарушении прав». Батлер отмечает, что хотя статус библиотеки не будет защищать Internet Archive так, как это было бы возможно, «право на создание копий для хранения», как называет это Батлер, говорит в их пользу.

«Обычно на библиотеки не подают в суд, из этого выходит плохая реклама», — говорит Батлер. Поэтому нет никакой горы современных юридических прецедентов, связанных с библиотеками в цифровую эру, за исключением нескольких случаев, связанных с делами Google Books.

Как отмечает Брайди, в США авторское право – это «коммерческое право». Дело не в ущербе репутации, а в защите ценности работы, и, конкретнее, возможности постоянно на ней зарабатывать. «Мы оправдываем это тем, что хотим побудить художников и других творческих людей публиковать и продавать свои работы, — сказала она. – Использование авторского права для попыток контроля приватности или репутации… Его, конечно, можно и так использовать, однако можно заявить, что это неправомерное использование авторского права, выходящее за его сферу ответственности».

Мы много чего принимаем, как само собой разумеющееся, особенно из-за того, что всё больше полагаемся на технологию. «Интернет навсегда» – этот рефрен может часто встречаться в СМИ, а скрытая в этом заявлении мудрость о необходимости вести себя осторожно, вероятно, обоснована, однако это не стоит понимать буквально. Люди удаляют посты. Веб-сайты и целые платформы исчезают из-за бизнеса и других причин. Богатые, знаменитые и власть имущие не стесняются запугивать мелкие некоммерческие организации. Хорошо иметь защиту на всякий случай, однако постоянству интернета есть границы – а там, где есть границы, есть и пути обхода.

Комментарии (3)

Samoglas
22.12.2018 00:34
#19536250
Из ресурсов, которыми пользуюсь каждый день, web.archive.org — самый странный, ненадежный, корявый, непредсказуемый, непонятный.
Частенько он даже ниасиливает 404 показать.
Например, я пытаюсь отслеживать спуск во адъ моей кармы, и кнопка
http://web.archive.org/save/https://habr.com/users/samoglas/comments/
может не работать месяцами, бог его знает, от чего это зависит, соответственно, все расширения браузера, которые аналогичный вызов делают (а другие мне неизвестны) поломаны так же.
Вот сейчас, спустя недели три, этот путь архивации заработал, но завтра может поломаться и опять на недели-месяцы.
Вот эта страница работает надежней: web.archive.org/save
Только потому, что они ее запустили, еще не забил на вебархив.

А хуже всего, что альтернатив ему нет.
Нужны новые сервисы с подобным функционалом, да и сам вебархив нужно архивировать на сторонний ресурс как можно скорей, пока у них еще какие-то инициативы по удалению собственных архивных данных не созрели.

Ну а пока, если уж что-то действительно нужно — локальная копия в mht + копия браузера, которым это делалось, бэкапы всего этого + webcitation.org + Pocket + Evernote + web.archive.org.
Иногда сайт сливаю телепортом целиком.
И молится, чтобы ну хоть откуда то удалось восстановить нужное лет эдак через 10, и из этого на вебархив надежд меньше всего, увы.
1. Bal
  23.12.2018 13:22
  #19539172
  сам вебархив нужно архивировать на сторонний ресурс
  Там десятки петабайт. Такие объёмы невозможно скопировать в частном порядке. А организация столкнётся с теми же трудностями.
  
  если уж что-то действительно нужно — локальная копия в mht + копия браузера, которым это делалось
  Я делаю чуть более трудоёмкий процесс. Если надо сохранить какую-то статью, которая мне интересна и удаления которой я опасаюсь, я сохраняю её в ZeroBlog в ZeroNet. Разметка вся сохраняется уже при простом копипасты, только картинки вручную приходится перевыкладывать, а то они ссылаются на клирнет. Хотя это можно и отскриптовать, но всё руки не доходят. В таком виде статьи и мне доступны в любой момент и сообществу всегда доступны тоже. Даже когда меня уже не будет :)

Bal
23.12.2018 13:15
#19539156
если вы занимаетесь публикацией спорного контента и хотите избежать ответственности, существует, по меньшей мере, два стандартных способа удалить его ...
А ещё лучше писать в ZeroNet и ничего не удалять :)

Когда интернет-архив забывает +14

Комментарии (3)

Samoglas

Bal

Bal