Тихая смерть robots.txt / forpes.ru

Главная
Тихая смерть robots.txt

Тихая смерть robots.txt +47

26.01.2026 13:01

interpres 30 32000 Источник

Десятки лет robots.txt управлял поведением веб-краулеров. Но сегодня, когда беспринципные ИИ-компании стремятся к получению всё больших объёмов данных, базовый общественный договор веба начинает разваливаться на части.

Pixel illustration of a knight holding a text file as a shield.

В течение трёх десятков лет крошечный текстовый файл удерживал Интернет от падения в хаос. Этот файл не имел никакого конкретного юридического или технического веса, и даже был не особо сложным. Он представляет собой скреплённый рукопожатием договор между первопроходцами Интернета о том, что они уважают пожелания друг друга и строят Интернет так, чтобы от этого выигрывали все. Это мини-конституция Интернета, записанная в коде.

Файл называется robots.txt; обычно он находится по адресу вашвебсайт.com/robots.txt. Этот файл позволяет любому, кто владеет сайтом, будь то мелкий кулинарный блог или многонациональная корпорация, сообщить вебу, что на нём разрешено, а что нет. Какие поисковые движки могут индексировать ваш сайт? Какие архивные проекты могут скачивать и сохранять версии страницы? Могут ли конкуренты отслеживать ваши страницы? Вы сами решаете и объявляете об этом вебу.

Эта система неидеальна, но она работает. Ну, или, по крайней мере, работала. Десятки лет основной целью robots.txt были поисковые движки; владелец позволял выполнять скрейпинг, а в ответ они обещали привести на сайт пользователей. Сегодня это уравнение изменилось из-за ИИ: компании всего мира используют сайты и их данные для коллекционирования огромных датасетов обучающих данных, чтобы создавать модели и продукты, которые могут вообще не признавать существование первоисточников.

Файл robots.txt работает по принципу «ты — мне, я — тебе», но у очень многих людей сложилось впечатление, что ИИ-компании любят только брать. Сегодня в ИИ вбухано так много денег, а технологический прогресс идёт вперёд так быстро, что многие владельцы сайтов за ним не поспевают. И фундаментальный договор, лежащий в основе robots.txt и веба в целом, возможно, тоже утрачивает свою силу.

На ранних этапах развития Интернета роботов называли по-разному: пауками (spider), краулерами (crawler), червями (worm), WebAnt, веб-краулерами (web crawler). Чаще всего их создавали из благих побуждений. Обычно их разработчик хотел набрать директорию интересных новых веб-сайтов, убедиться в работоспособности его собственного веб-сайта или создать исследовательскую базу данных: это происходило примерно в 1993 году, задолго до повсеместного распространения поисковых движков, в те времена, когда бóльшая часть Интернета могла уместиться на жёстком диске компьютера.

Единственной реальной проблемой тогда был трафик: доступ к Интернету пока оставался медленным и дорогим и для посетителя веб-сайта, и для хостера. Если веб-сайт хостился на компьютере его владельца, как это часто случалось, или на серверном ПО, работающем через домашнее Интернет-соединение, то для вывода сайта из строя и получения огромного счёта за телефон достаточно было всего нескольких роботов, слишком усердно скачивающих его страницы.

В 1994 году проектировщик и разработчик ПО Мартин Костер вместе с группой веб-администраторов и веб-разработчиков за несколько месяцев придумали решение, которое назвали Robots Exclusion Protocol. Предложение было достаточно простым: веб-разработчики могли добавлять в свои домены текстовый файл, указывающий, какие роботы могут исследовать сайт, или перечисляющий страницы, недоступные всем роботам. (В то время можно было составить список всех существующих роботов; Костер с коллегами именно так и поступили.) Для создателей роботов сделка была ещё более простой: достаточно было уважать пожелания из текстового файла.

С самого начала Костер объяснил, что он не ненавидит роботов и не стремится от них избавиться. «Роботы — один из тех аспектов веба, которые вызывают эксплуатационные проблемы и напрягает людей», — написал он в начале 1994 года в список рассылки WWW-Talk (в котором участвовали такие пионеры раннего Интернета, как Тим Бернерс-Ли и Марк Андриссен). «В то же время они приносят пользу». Костер призывал не спорить о пользе или вреде роботов, потому что они всё равно никуда не исчезнут. Он просто пытался спроектировать систему, которая сможет «минимизировать проблемы и максимизировать преимущества».

К лету того же года его предложение превратилось в стандарт; не официальный, но более-менее общепринятый. В июне Костер опубликовал в группе WWW-Talk дополнение. «Если вкратце, то это способ отвадить роботов от определённых частей пространства URL веб-сервера при помощи простого текстового файла. Это особенно полезно, если у вас есть большие архивы, скрипты CGI с огромными поддеревьями URL, временная информация или если вы просто не хотите обслуживать роботов». Он создал список рассылки по этой теме, в которой его участники согласовали базовый синтаксис и структуру этих текстовых файлов, изменили имя файла с RobotsNotWanted.txt на простое robots.txt и договорились поддерживать его.

В течение последующих неполных тридцати лет всё это достаточно неплохо работало.

Но Интернет сегодня уже не поместится на жёсткий диск, а роботы стали гораздо мощнее. Google использует их для краулинга и индексирования всего веба для своего поискового движка, ставшего интерфейсом веба и приносящего компании миллиарды долларов в год. Краулеры Bing ведут себя так же, а Microsoft продаёт лицензии на свою базу данных другим поисковым движкам и компаниям. Internet Archive использует краулер для сохранения веб-страниц на будущее. Краулеры Amazon бродят по вебу в поисках информации о товарах; согласно недавнему антимонопольному судебному делу, компания использует эту информацию, чтобы наказывать продавцов, предлагающих более выгодные условия на других площадках. ИИ-компании наподобие OpenAI выполняют краулинг веба для обучения больших языковых моделей, которые снова могут фундаментально изменить способы доступа к информации и обмена ею.

Способность скачивать, хранить и упорядочивать современный Интернет позволяет современной компании или разработчику работать со своего рода накопленными знаниями всего мира. За последний год рост ИИ-продуктов наподобие ChatGPT и лежащих в их основе больших языковых моделей превратил высококачественные данные в один из самых ценных ресурсов Интернета. Это заставило провайдеров Интернета переосмыслить ценность данных на их серверах и то, кто может получать к ним доступ. Если ограничивать доступ слишком слабо, то веб-сайт потеряет всю свою ценность, если слишком сильно, то он станет невидим в поисковиках. И владельцам нужно постоянно делать этот выбор с новыми компаниями, новыми партнёрами и новыми рисками.

Существует несколько разновидностей Интернет-роботов. Можно создать совершенно невинного робота для проверки того, что все ссылки на ваших страницах всё ещё ведут на живые страницы; можно отправить в свободное плавание чуть более опасного, ищущего любые почтовые адреса и номера телефонов. Но больше всего распространён и вызывает больше всего споров обычный веб-краулер. Его задача — находить и скачивать максимально возможные объёмы данных из Интернета.

В общем случае веб-краулеры довольно просты. Они начинают с хорошо известного веб-сайта, например, cnn.com, wikipedia.org или health.gov. (Владельцы поисковых движков общего пользования начинают со множества высококачественных доменов, охватывающих различные темы; если кого-то интересует спорт или автомобили, то он просто начинает с автомобильных сайтов.) Краулер скачивает эту первую страницу и сохраняет её куда-нибудь, затем автоматически нажимает на каждую ссылку с этой страницы, скачивает их все, нажимает на ссылки на каждой и таким образом распространяется по вебу. Имея достаточно времени и вычислительных ресурсов, краулер постепенно найдёт и скачает миллиарды веб-страниц.

По оценкам Google, на 2019 год было приблизительно 500 миллионов веб-сайтов со страницей robots.txt, указывающей, к чему могут иметь доступ эти краулеры. Структура этих страниц более-менее одинакова: на ней указано имя User-agent, то есть имя, которое краулер сообщает при идентификации на сервере. Агент Google называется Googlebot; агент Amazon — Amazonbot; агент Bing — Bingbot; агент OpenAI — GPTBot. У Pinterest, LinkedIn, Twitter и множества других сайтов есть собственные боты, но не все они упоминаются на каждой странице. (Особенно тщательно к учёту роботов подходят Wikipedia и Facebook.) Внутри страницы robots.txt перечислены разделы или страницы сайта, к которым не разрешён доступ указанного агента, и конкретные исключения, к которым доступ разрешён. Если на странице написано только Disallow: /, то краулеру запрещено всё.

Для большинства людей проблема «перегруженных роботами серверов» уже довольно давно потеряла свою актуальность. «Сегодня вопрос обычно не в используемых на веб-сайте ресурсах, а в личных предпочтениях. Что вы разрешаете краулить и индексировать, а что нет», — рассказывает поисковый юрист компании Google Джон Мюллер.

В прошлом самым важным вопросом для большинства владельцев веб-сайтов заключался в том, разрешать ли Googlebot выполнять краулинг сайта. Принцип взаимообмена здесь прост: если Google сможет выполнить краулинг вашей страницы, то проиндексирует её и отобразит в результатах поиска. Если вы хотите, чтобы вашу страницу могли загуглить, то её должен увидеть Googlebot. (Как и где Google на самом деле отображает эту страницу в результатах поиска — это, разумеется, совершенно отдельная история.) Вопрос в том, хотите ли вы, чтобы Google отъел часть ширины вашего канала и скачал копию вашего сайта в обмен на отображение в поиске.

Большинство веб-сайтов отвечало на этот вопрос без раздумий. «Google — наш самый важный паук», — рассказывает CEO Medium Тони Стаблбайн. Google скачивает все страницы Medium, «и взамен мы получаем существенный объём трафика. Выигрывают обе стороны. И так считают все». Такую сделку Google заключила со всем Интернетом: она направляет трафик на другие веб-сайты, параллельно продавая рекламу в соответствии с результатами поиска. И Google, по общему мнению, прилежно соблюдала требования robots.txt. «Почти все известные поисковые движки соблюдают их. Они с охотно выполняют краулинг веба, но не хотят напрягать этим владельцев сайтов... это упрощает всем жизнь», — делится Мюллер.

Однако примерно за последний год развитие ИИ положило конец этому балансу. Многим издателям и платформам краулинг их данных для обучения больше казался не обменом, а кражей. «Мы довольно быстро выяснили, что это не просто не было равноценным обменом, но и мы вообще не получали взамен. Буквально ноль», — объясняет Стаблбайн. В своём осеннем заявлении о том, что Medium будет блокировать все ИИ-краулеры, он написал, что «ИИ-компании крадут ценность у авторов, чтобы спамить читателей».

За прошедшее время такие настроения стала разделять большая доля представителей медиа-индустрии. «Мы не считаем, что современный "скрейпинг" данных BBC без нашего разрешения для обучения моделей генеративного ИИ происходит в интересах общества», — писал прошлой осенью директор национальных подразделений BBC Родри Талфан Дэвис, заявив о том, что BBC тоже будет блокировать краулер OpenAI. The New York Times тоже заблокировала GPTBot; спустя несколько месяцев газета подала иск против OpenAI, утверждая, что модели OpenAI «разработаны для копирования и использования миллионов защищённых авторским правом новостных статей The Times, расследований, мнений, обзоров, инструкций и так далее». Исследование Бена Уэлша, работающего редактором новостей Reuters, показало, что 606 из 1156 опрошенных издателей заблокировало GPTBot в файле robots.txt.

И это касается не только издателей: Amazon, Facebook, Pinterest, WikiHow, WebMD и множество других платформ в явном виде частично или полностью запрещают GPTBot доступ к своим веб-сайтам. На большинстве таких страниц robots.txt GPTBot компании OpenAI остаётся единственным краулером, доступ которого явно и полностью запрещён. Но есть и множество других связанных с ИИ ботов, которые начинают заниматься краулингом веба, например, anthropic-ai компании Anthropic и новый Google-Extended компании Google’s. Согласно проведённому осенью Originality.AI исследованию, 306 из 1000 самых популярных веб-сайтов заблокировало GPTBot, но только 85 заблокировало Google-Extended и 28 заблокировало anthropic-ai.

Существуют также краулеры, предназначенные и для веб-поиска, и для ИИ. CCBot, выпущенный организацией Common Crawl, рыскает по вебу в поисках данных для поискового движка, но его данные также используют для обучения своих моделей OpenAI, Google и другие компании. Bingbot компании Microsoft — это и краулер поисковика, и ИИ-краулер. И это лишь те краулеры, которые идентифицируют себя — многие другие пытаются работать в относительной секретности, из-за чего их сложно остановить и даже найти в море другого веб-трафика. Любому достаточно популярному веб-сайту обнаружить скрытный краулер так же трудно, как найти иголку в стоге сена.

GPTBot стал главным злодеем robots.txt во многом из-за того, что OpenAI допустила это. Компания опубликовала и рекламировала страницу о том, как блокировать GPTBot и сделала так, чтобы краулер громко идентифицировал себя каждый раз, когда он заходит на веб-сайт. Разумеется, всё это она сделала уже после обучения моделей, и только тогда, когда уже стала важной частью технологической экосистемы. Но гендиректор по стратегии OpenAI Джейсон Квон говорит, что в этом-то и смысл: «Наша компания — один из игроков в экосистеме. Если вы хотите участвовать в этой экосистеме открытым образом, то это взаимообмен, в котором заинтересованы все». По его словам, без такого обмена веб начнёт замыкаться, а это плохо и для OpenAI, и для всех остальных. «Мы делаем это для того, чтобы веб мог оставаться открытым».

По умолчанию Robots Exclusion Protocol всегда был разрешительным. Он, как и Костер тридцать лет назад, исходит из того, что роботы в большинстве своём хорошие и созданы хорошими людьми, поэтому по умолчанию их разрешает. По большому счёту, это было правильное решение. «Я считаю, что Интернет в основе своей — общественное творение, и это соглашение, сохранявшееся в течение нескольких десятков лет, похоже, работало», — говорит Квон. По его словам, роль OpenAI в соблюдении этого соглашения включает и бесплатную доступность ChatGPT для большинства пользователей, позволяющая вернуть обществу его вклад, а также соблюдение правил для роботов.

Но robots.txt — это не юридический документ, и спустя тридцать лет после его создания он по-прежнему полагается на добрую волю всех участвующих сторон. Запрет бота на странице robots.txt напоминает надпись «девчонкам вход запрещён» в домике на дереве; он передаёт посыл, но в суде никакой силы не имеет. Любой краулер, желающий игнорировать robots.txt, может так и поступить, не боясь при этом практически никаких последствий. Например, Internet Archive в 2017 году просто заявил о том, что больше не придерживается правил robots.txt. «Мы уже долгое время видим, что файлы robots.txt, предназначенные для краулеров поисковых движков, не всегда служат нашим задачам архивирования», — так писал в то время директор Wayback Machine Марк Грэм. И на этом всё.

ИИ-компании продолжают множиться, а их краулеры становятся всё более беспринципными, поэтому те, кто хочет переждать процесс развития ИИ, вынужден играть в бесконечную игру в прятки. Им приходится создавать запреты для каждого робота и краулера по отдельности, если это вообще возможно, в то же время сталкиваясь с побочными эффектами. Если ИИ и на самом деле станет будущим для поисковых запросов, как прогнозирует Google и другие компании, то блокирование ИИ-краулеров будет выигрышем в ближней перспективе, но катастрофой в дальней.

По обе стороны есть люди, считающие, что нам нужны более качественные, мощные и строгие инструменты для работы с краулерами. Они утверждают, что на кону слишком большие деньги, слишком много новых нерегулируемых сценариев использования для того, что просто полагаться на порядочность всех участников. «Хоть у многих акторов есть свои правила по использованию краулеров, эти правила в целом слишком слабы, а их соблюдение слишком сложно отслеживать», — писали два юриста в своей статье 2019 года о легальности веб-краулеров.

Некоторым издателям хочется иметь более детальный контроль над тем, краулинг какой именно информации выполняется и для чего она используется. Google, несколько лет назад предпринявшая попытки к тому, чтобы Robots Exclusion Protocol стал официальным формализованным стандартом, также пыталась снизить важность robots.txt, исходя из того, что это старый стандарт и многие сайты не уделяют ему внимания. «Мы понимаем, что существующие инструменты контроля веб-издателей были разработаны до того, как краулеры начали применять для создания ИИ и исследований. И считаем, что настало время для того, чтобы веб и сообщества разработчиков ИИ начали исследовать дополнительные машиночитаемые средства управления, учитывающие это».

Даже несмотря на то, что ИИ-компании сталкиваются с нормативными и юридическими вопросами о том, как они создают и обучают свои модели, эти модели продолжают совершенствоваться, а новые компании, похоже, появляются каждый день. Веб-сайты вынуждены принять решение: подчиниться революции ИИ или оказать сопротивление. Самым сильным оружием тех, кто решил бороться, остаётся соглашение, заключённое три десятка лет назад первыми и наиболее оптимистичными сторонниками веба. Они верили, что Интернет — это хорошее место, в котором находятся хорошие люди, и больше всего они хотели, чтобы Интернет был чем-то хорошим. В том мире и в том Интернете вполне было достаточно изложить свои желания в простом текстовом файле. Сегодня же, когда ИИ полностью меняет культуру и экономику Интернета, скромный текстовый файл уже начинает казаться слишком старомодным.

Комментарии (30)

Bardakan
26.01.2026 13:52
#29436980
Medium будет блокировать все ИИ-краулеры, он написал, что «ИИ-компании крадут ценность у авторов, чтобы спамить читателей».

ирония в том, что Medium заспамлен мусорными статьями, сгенеренными в ИИ, и вот уже с этим он ничего не собирается делать
1. eByeBots
  26.01.2026 13:52
  #29440852
  всё правильно, свой ресурс разгрузить от лишнего мусорного трафика, а за счет своего мусорного материала - монетизироваться по максимуму)

punhin
26.01.2026 13:52
#29437432
Что-то в этой статье слишком много повторов и переливания из пустого в порожнее... Автор забыл вспомнить, что ИИ-краулеры ещё и запросы свои к сайтам направляют весьма агрессивно, что заставляет некоторых провайдеров переключать клиентов на более дорогие тарифы, способные отработать такие, хоть и разовые, но очень крупные всплески.
1. Psychosynthesis
  26.01.2026 13:52
  #29446692
  Так это ИИ-слоп

OlegZH
26.01.2026 13:52
#29437452
Существует очень простое технологическое решение: своё адресное пространство для роботов. Точнее, так: если создаётся какая-то программа, то она будет действовать в своём отдельном адресном пространстве, а пользователи живут в своём адресном пространстве. Тогда будет видно, что вот это сделал реальный пользователь (при помощи клавиатуры и мышки), потому, что эти данные ОС получила именно от клавиатуры и именно от мышки. И в этом случае будет ясно, даже, что это есть запись действий пользователя. В то время как программная эмуляция действий пользователя будет попросту идти по другому каналу. Но и тут есть такая развилка: если нужно провести тестирование, то да, надо имитировать действия пользователя, а если получить данные, то данные надо всегда получать напрямую, обращаясь к базе данных.

Но! Тогда надо, чтобы у всего был собственный API. Вот зачем роботу залезать на текущую страницу (ту, на которой мы сейчас находимся) и что-то на ней "парсить"? Незачем! Эта страница создана для людей, чтобы посмотреть, прочитать и что-то прокомментировать. А робот должен получать то, что ему нужно по API. Но! У Хабра нет никакого открытого API!

А так... очень обидно, получать сообщение "Ваши действия похожи на автоматические" с последующим предложением пройти кап(т)чу и (что, ещё хуже) "войти в свой аккаунт", даже если этого самого аккаунта никакого нет. При всё при этом, все эти навороченные платформы сами провоцируют "автоматизацию" действий пользователя, заставляя делать однотипные действия там, где должен быть развитый пользовательский интерфейс, предусматривающий обыкновенный поиск объектов требуемого типа по различным параметрам с последующим применением ко всем найденным объектам выбранного действия. Все эти сеньёры в крутых ИТ-компаниях почему-то оказываются неспособными реализовывать такие элементарные вещи.
1. eByeBots
  26.01.2026 13:52
  #29441158
  не соглашусь. Технологическое решение для кого?
  
  для примера: в поиске Яндекса крутят поведенческий фактор, принцип: заходят боты на ТОП 10 сайтов по фразам нужным, которые выглядят как пользователи - выходят сразу. нагуливают профиль, на другом подобном сайте - сидят долго - сайт повышается в выдаче.
  
  но я вот про что - таких ботов пишут на Zennoposter или BAS или просто у кого то свои фермы на андройд устройствах (что редко) - просто посмотрите что это за продукты, эти боты видят контент визуально на сайте.
  
  В вашем случае - про технологическое решение - в большинстве случаем просто блочатся заходы с HTTP 1.1 и 1.0 или делается капча. Такая часть отсекается. Только тут нужно учитывать что боты яндекса и гугла тоже используют устаревший HTTP 1. 1 - и им нужно давать приоритет.
  
  Тогда надо, чтобы у всего был собственный API
  да, это в теории могут сделать крупные ИИ боты, но смысл? Все хотят собирать информацию и монетизировать, условно ИИ бот Васи Пупкина не будет в деле.
  
  Ваши действия похожи на автоматические - у Вас скорее всего айпи не постоянный (дома например), такая плашка может быть часто с мобильного оператора, так как айпи у вас постоянное разные оператор дает, и условный бот для ПФ - ходил с него и делал автоматизированные действия)
1. CrashLogger
  26.01.2026 13:52
  #29449256
  Все эти сеньёры в крутых ИТ-компаниях почему-то оказываются неспособными реализовывать такие элементарные вещи.
  Они способны, просто им ставят другие задачи. Те, которые выгодны владельцу сайта, а не посетителю. А владельцу нужно, чтобы вы провели на сайте больше времени и посмотрели больше рекламы, а не быстро нашли что вам надо и закрыли браузер)

GoblinHero
26.01.2026 13:52
#29437474
О да, последние полгода ИИ роботы повадились сканить все подряд с игнорированием robots.txt и маскировкой под обычного пользователя. VPSка нехило от этого нагружалась. Проблему удалось решить только включением в cloudflare капчи для Китая и Гонконга.
1. eByeBots
  26.01.2026 13:52
  #29441038
  Это действительно работает, но если трафик посетителей из РФ - то на данный момент Cloudflare не лучшее решение - многие пользователи просто не доходят до Вашего сайта, наверное знаете почему?)
  1. GoblinHero
    26.01.2026 13:52
    #29441382
    Это да, но преимущества бесплатного тарифа CF перевешивают для меня потери части посетителей из РФ.
    
    До CF я использовал другой вариант - геоблок всего Китая/Гонконга на уровне FW.
  1. Evgenisav
    26.01.2026 13:52
    #29443054
    И не дойдут. РКН блокирует подсети

vanxant
26.01.2026 13:52
#29437974
Вы просмотрели мастер-класс "как растянуть два предложения на 5000 символов"

Evgenisav
26.01.2026 13:52
#29439146
Самым сильным оружием тех, кто решил бороться, остаётся соглашение, заключённое три десятка лет назад первыми и наиболее оптимистичными сторонниками веба.

Бороться можно и нужно.

Robots.txt:
```
User-agent: GPTBot Disallow: / 
User-agent: OAI-SearchBot Disallow: / 
User-agent: CCBot Disallow: / 
User-agent: ClaudeBot Disallow: / 
User-agent: Claude-User Disallow: /
User-agent: Claude-SearchBot Disallow: / 
User-agent: Google-Extended Disallow: /
```
.htaccess:
```
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (GPTBot|OAI-SearchBot|ChatGPT-User|ClaudeBot|Claude-User|Claude-SearchBot|PerplexityBot|CCBot|Google-Extended) [NC]
RewriteRule .* - [F,L]
```
Для OLS (Open LitespeedServer):
```
context / {
allowBrowse             1
extraHeaders <<<END_extraHeaders
set X-Robots-Tag "noai, noimageai" always
set tdm-reservation "1" always
END_extraHeaders
}
```
Тут самое главное при борьбе с ИИ ботами:
set X-Robots-Tag "noai, noimageai" always
set tdm-reservation "1" always - это персонально для европы, иначе, из за их законов анус не прищемить уродам.

Для apache+nginх думаю сами сваяете, ну и роботов для блока не проблема добавить
1. bolk
  26.01.2026 13:52
  #29440616
  А почему у вас Disallow не на следующей строке?
  1. ulechka
    26.01.2026 13:52
    #29440838
    В файле robots.txt должен быть обычный текст в кодировке UTF-8. В качестве разделителей строк следует использовать символы CR, CR/LF и LF.
    
    bolk
    26.01.2026 13:52
    #29440972
    И как это отвечает на мой вопрос?
1. RedHead
  26.01.2026 13:52
  #29447736
  А зачем блокировать? отдавайте им нейрослоп.

BlakeStone
26.01.2026 13:52
#29439414
Вся проблема в том, что robots.txt носит рекомендательный характер. Краулер может считаться с содержащимися в нём директивами, а может и не. В отличие, скажем, от htaccess (там, где он работает, естественно) либо серверных запретов. Если robots.txt – это что-то вроде «пожалуйста, по возможности не ходите туда», то htaccess – это категорическое и непреодолимое «Стоять! Входа нет!» И вот в этой связке robots.txt может обрести свою вторую жизнь: если его директивы будут неизменно сопровождаться соответствующими серверными запретами, если вместо смущённого «нельзя ли вас попросить не заходить туда?» – будет тихое, но весомое «туда не ходи, хуже будет, ну смотри, я тебя предупредил» и последующий предупредительный бан на пару суток за неповиновение, другими словами, когда из тихого шелеста robots.txt превратится в предупреждающее шипение кобры перед броском – вот тогда с ним снова начнут считаться. И никак иначе.
1. bolk
  26.01.2026 13:52
  #29440620
  Достаточно роботу использовать любой user-agent и никакой htaccess его не остановит.
  1. BlakeStone
    26.01.2026 13:52
    #29440896
    htaccess не остановит, но он – не последний бастион защиты. Окончательное решение принимается серверным сценарием, а у того одной из базовых аксиом должно быть стопроцентное недоверие к UserAgent как к параметру, значение которого гости могут выбирать себе произвольно. Соответственно, у ботов должна быть дилемма: либо ты подделываешь свой UserAgent – и в этом случае сервер определяет твои права по своду крайне жёстких правил, предназначенных для интернет-сброда, с риском принудительных тормозов, отказов и долговременного бана, – либо предъявляешь свой подлинный UserAgent, и тогда в совокупности с IP сети, откуда ты пришёл, попадаешь в подгруппу не самых желательных, но имеющих некие минимальные послабления гостей.
    
    bolk
    26.01.2026 13:52
    #29440964
    Нет никакой дилеммы. Боты просто будут (и думаю уже так делают) user-agent от браузеров.
    
    eByeBots
    26.01.2026 13:52
    #29441016
    да так и есть, тут фильтровать нужно: капчами или блокировками по: ASN сетям, странам, отпечаткам и другим функционалом
    
    BlakeStone
    26.01.2026 13:52
    #29441168
    У меня лично половина таких ботов отфильтровывается первыми двумя-тремя алгоритмами, оставшиеся либо соблюдают метрики, соответствующие человеческому поведению (что меня вполне устраивает) – паузы между просмотрами, сохранение неизменного UserAgent на протяжении всего сеанса и пр. – либо нарываются на следующие фильтры. Это означает, что большинство ботов может получать контент порциями по пять-десять страниц с большими временными промежутками – но смысл таких визитов для них сводится к минимуму.

eByeBots
26.01.2026 13:52
#29440840
Всё верно, robots.txt умер - ИИ стремятся выкачать всю информацию с сайта, создать на него нагрузку, а взамен - пожалуйста! Только вот обычные владельцы сайтов - это еще не понимают и пытаются блокировать ботов как раз через этот файл - в интернете документация старая.

Раньше через Cloudflare настраивали фильтрацию и разгружали сервер от этого шлака, сейчас уже свои аналоги Cloudflare через прокси сервер. Тут Важно знать официальных ПС ботов - и не блокировать их.

Многие пишут в комментариях правила для блокировки по User Agent - но можно задать любой агент пользователя. Далеко ходить не буду, deepseek не использует очевидный User Agent, блок по: Название провайдера:Huawei-Cloud-SG ASN:136907

Во пример дипсика, но у меня блок не по ASN а по стране в этом случае:

Всех через .htaccess не заблочишь, сайт начнет тормозить - обработка правил каждый раз происходит при заходе пользователя - проходя все строки.

Crabster
26.01.2026 13:52
#29442108
Фантазии о том, что если файл называется robots то все боты должны его учитывать, остается фантазией автора. Это файл для роботов поисковых систем, которые заявляет о том что учитывает информацию в нем. Все остальное вода. Проблема сканирования сайта иными ботами никак не связана с этим. И решение проблемы совсем иное. Если утверждаете что он умирает - удаляйте его. Посмотрим сколько мусора у вашего сайта появится в выдаче

Prion
26.01.2026 13:52
#29443882
Странная статья , как будто автор путает теплое с мягким. Robots.txt прежде всего нужен для поисковых систем и пока люди ими пользуются ,robots txt будет нужен. У ИИ совсем другие цели поэтому им нужен совсем другой протокол, другой список сценариев. Мне непонятно зачем автор сознательно путает поисковые боты и боты ИИ? Заголовок заведомо кликбейтный. Пусть автор посмотрит сколько на рынке SEO- агентств , seo-специалистов и спросит занимаются ли robots и собирается ли robots помирать ?
1. iantonspb
  26.01.2026 13:52
  #29446638
  Мне непонятно зачем автор сознательно путает поисковые боты и боты ИИ?
  
  Потому что это может быть один и тот же бот?
  
  Bingbot компании Microsoft — это и краулер поисковика, и ИИ-краулер.
  
  Если у меня и поисковик, и ИИ-модель, зачем мне парсить твой сайт дважды, если я могу скачать все один раз?
  1. Prion
    26.01.2026 13:52
    #29446702
    
    Похоже вы не знаете мат.часть. Даже при парсинге сайта у Гугла и Яндекса отдельные боты под картинки, основной бот и так далее , только у яндекса 6-7 ботов.
    
    Некоторые краулеры Яндекса:
    
    Yandex/1.01.001 (compatible; Win16; I) — центральный поисковый продукт Яндекса, который индексирует контент.
    
    Yandex/1.01.001 (compatible; Win16; P) — робот, который индексирует картинки и фотографии.
    
    Yandex/1.01.001 (compatible; Win16; H) — отыскивает зеркала и дубли ресурса.
    
    Yandex/1.03.003 (compatible; Win16; D) — первый паук, который приходит на ресурс после добавления его через раздел вебмастера. Его задачи — проверка добавленных параметров, указанных в панели, на соответствие.
    
    Yandex/1.03.000 (compatible; Win16; M) — краулер, который посещает страницу после её загрузки по ссылке «Найденные слова» в поисковой выдаче.
    
    YaDirectBot/1.0 (compatible; Win16; I) — индексирует сайты из рекламной сети Яндекса (РСЯ).
    
    Yandex/1.02.000 (compatible; Win16; F) — бот сканирует фавиконы сайтов.
    
    2. В российском SEO два основных источника трафика. Яндекс и Google, если речь про robots.txt, то пример с Бингом не совсем релевантный. Потому что большинству сео-специалистов мало интересны боты от бинга.
    
    На сколько у меня есть информация роботс для ИИ-ботов сейчас используется в основном как ограничитель
1. orignal
  26.01.2026 13:52
  #29448060
  Ну да, конечно, ИИ боты это обычные пользователи, с теми юзер-агентами, которые они декларируют, и конечно же они не переключаются между разными IP, продолжая докачивать страницу. Но нет это не роботы, "просьба отнестись с пониманием".
1. amename
  26.01.2026 13:52
  #29450302
  а вы не помните сколько было Flash-дизайнстудий и Flash-контента, но ничего не помешало и в таком случае похоронить и не настолько простой текстовый файл