Данная ошибка "Indexed, though blocked by robots.txt" появляется тогда, когда бот Google индексирует страницы, несмотря на то, что вы запретили это в файле robots.txt. Это происходит потому, что бот часто игнорирует запреты и добавляет эти страницы в индекс, хотя по правилам они не должны были туда попасть. Чтобы решить эту проблему, можно воспользоваться несколькими методами, например, скорректировать настройки robots.txt, использовать мета-теги noindex для выбранных страниц или обратиться в поддержку Google для получения рекомендаций.
Ранее уже была публикация про индексацию сайтов через Google API, в которой присутствует подробная инструкция индексации страниц через Console Cloud Google.
Способы закрытия страниц от индексации
Существует несколько способов закрыть доступ поисковым ботам к индексации страниц вашего сайта:
1. HTTP заголовок X-Robots-Tag. Это изящный и неприметный метод, который настраивается на серверной стороне. Он не виден в исходном коде страницы, но его можно увидеть через инструменты разработчика в разделе Network. Обычно настройкой занимаются команды разработчиков или администраторы серверов.
2. Meta robots. Этот надежный способ включает добавление мета-тега robots в раздел <head> страницы с нужными атрибутами. Я предпочитаю использовать сочетание noindex, follow, чтобы явно указать Google не индексировать страницу.
3. Скрипт на JavaScript. Часто разработчики предлагают закрыть через написанные скрипты на языке программирования JavaScript. Их также можно найти в свободном доступе интернете. Чем хорош данный метод, пользователи могут заходить и видеть контент , а поисковые роботы нет.
4. Атрибут canonical. Чтобы удалить дубли страниц, возможно прописать тег с атрибутом canonical и указать в нем главную страницу. Ранее данный трюк всегда срабатывал, но последнее време он работает 50/50.
Всю информацию можно изучить в документации Google https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag.
А как же robots.txt?
Напротив распространенного мнения, эта директива не блокирует индексацию страниц вашего сайта. Google прямо заявляет об этом в своей документации. Основная функция этой директивы — запретить сканирование определенных разделов. Однако Google все равно может включить в индекс контент, который вы бы предпочли не видеть в результатах поиска.
Лавушка индексации
Теперь я объясню, почему я об этом говорю. На сайте, который я продвигаю, возникла проблема: в индекс попало много страниц с get-параметрами, что привело к появлению лишних рефералов.
Чтобы не создавать лишние трудности своим любимым разработчикам, я решил быстро закрыть такие страницы в файле robots.txt и переключиться на другие вопросы. Но, как вы уже поняли, это не решило проблему — страницы продолжали появляться. Я в какой-то момент думал, что Google сам разберется с данной проблемой и на основных страницах никак не отразяться данные технические вопросы. Но увы, страницы с параметрами начали перебивать основные страницы.
А что делать-то?
Чтобы удалить ненужные страницы из индекса, выполните следующие шаги:
1. Закройте нужные разделы от индексации, используя один из двух методов, описанных в статье о способах закрытия страниц от индексации.
2. Разрешите боту сканирование этих разделов в файле robots.txt.
3. Подождите, пока все целевые страницы будут удалены из индекса.
4. После завершения деиндексации снова закройте эти разделы в robots.txt, чтобы они не мешали Google и не расходовали ваш краулинговый бюджет.
Если Вам нужна помощь в индексации сайтов пишите нам в контактах Seo House.
PereslavlFoto
Что такое краулинговый бюджет?