Представьте, что газетный издатель объявляет: отныне библиотекам запрещено хранить копии его газет. Примерно это и происходит сейчас в интернете.

Internet Archive — крупнейшая цифровая библиотека мира — сохраняет веб-контент ещё с середины 1990-х. Её задача — архивировать интернет и делать его доступным для всех. Для этого Archive ведёт Wayback Machine, в которой сегодня хранится более триллиона архивных веб-страниц; ею ежедневно пользуются журналисты, исследователи и даже суды.
Однако в последние месяцы The New York Times начал блокировать доступ Archive к своему сайту — причём не через стандартные правила robots.txt, а более жёсткими техническими методами. Подобные шаги, судя по всему, предпринимают и другие издания, включая The Guardian.
Почему это проблема
Почти тридцать лет историки, журналисты и обычные читатели пользовались Internet Archive, чтобы видеть новостные сайты такими, какими те были в момент публикации. По данным сотрудников Archive, только Википедия содержит более 2,6 миллиона ссылок на новостные материалы, сохранённые в Archive, — на 249 языках.
Такие архивные копии нередко остаются единственным надёжным источником, позволяющим восстановить первоначальный вид материала. Статьи правят, меняют и удаляют — зачастую именно Internet Archive остаётся единственным местом, где можно отследить изменения. Стоит крупным издателям закрыть доступ для архивных краулеров — и этот исторический след просто исчезнет.
Причина — страх перед ИИ
По словам самих издателей, всё это делается из-за опасений, что ИИ-компании используют их материалы для обучения моделей.
Издатели хотят контролировать использование своего контента, и некоторые из них — включая Times — уже подали иски против ИИ-компаний, оспаривая законность использования защищённых авторским правом материалов для обучения моделей. При этом есть веские основания считать, что такое обучение подпадает под добросовестное использование (fair use).
Архивирование — законно
Как бы ни закончились эти судебные споры, блокировать некоммерческие архивы — неправильное решение. Организации вроде Internet Archive не создают коммерческие ИИ-системы. Они выполняют другую задачу: сохраняют историю. Попытка ограничить доступ к архивам ради контроля над ИИ — это значит уничтожить десятилетия цифровой истории ради конфликта, к которому архивы не имеют отношения.
Индексирование материалов для поиска — давно устоявшаяся практика fair use. Суды неоднократно отмечали: создать поисковый индекс без копирования исходных материалов, как правило, невозможно. Именно поэтому, когда Google оцифровывал целые книги для создания поисковой базы данных, суды признали это добросовестным использованием. Копирование служило трансформативной цели: обеспечивало возможность поиска, исследования и получения новых знаний о творческих произведениях.
Те же правовые принципы, что защищают поисковые системы, должны защищать и архивы с библиотеками. Даже если суды установят ограничения для обучения ИИ, правовые нормы, регулирующие поиск и веб-архивирование, уже давно сложились и хорошо известны.
Споры вокруг обучения ИИ реальны и должны быть разрешены в судах. Но жертвовать ради этой борьбы общедоступной исторической документацией — значит совершить глубокую и, возможно, необратимую ошибку.
Комментарии (5)

Arhammon
23.03.2026 09:55Даже если суды установят ограничения для обучения ИИ, правовые нормы, регулирующие поиск и веб-архивирование, уже давно сложились и хорошо известны
Теперь вспоминаем кто у нас главный поисковик и кто потенциально главный ИИ?

alekseiib
23.03.2026 09:55Честно, это выглядит странно. Понимаю, что издатели боятся, как ИИ использует их тексты, но закрывать архивы, это как запретить библиотекам хранить газеты. История исчезнет, а с ней и часть нашей памяти. Не кажется, что это перебор?
AdrianoVisoccini
Вся эта борьба с ветряными мельницами выглядит очень потешно. Не существует варианта в котором твой сайт будет доступен пользователям и не будет нейросетям. Любые попытки помешать обучению моделей обречены на выстрел себе в ногу. Не менее смешно выглядят художники, актеры, копирайтеры и прочие которые выпускают петиции против нейросоетй
К сожалению, это реальность с которой прийдется считаться. Это как петиции против ядерного оружия. Его уже придумали, разпредумать обратно не выйдет. Смиритесь
GorkyUser
Как это не существует? При условии, что хозяин нейросети добросовестный субъект, существует по крайней мере два простых способа и кучка более замороченных. Вебмастер сайта может 1) запретить в robots.txt боту нейросети парсить свой сайт. 2) забанить бот нейросети в настройках сервера типа .htaccess.
Это точно. Они выглядят вообще жадными и глупыми.
AdrianoVisoccini