• Главная
  • Контакты
Подписаться:
  • Twitter
  • Facebook
  • RSS
  • VK
  • PushAll

logo

  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • За год
    • Положительные
    • Отрицательные
  • Сортировка
    • По дате (возр)
    • По дате (убыв)
    • По рейтингу (возр)
    • По рейтингу (убыв)
    • По комментам (возр)
    • По комментам (убыв)
    • По просмотрам (возр)
    • По просмотрам (убыв)
Главная
  • Все
    • Положительные
    • Отрицательные
  • За сегодня
    • Положительные
    • Отрицательные
  • За вчера
    • Положительные
    • Отрицательные
  • За 3 дня
    • Положительные
    • Отрицательные
  • За неделю
    • Положительные
    • Отрицательные
  • За месяц
    • Положительные
    • Отрицательные
  • Главная
  • Internet Archive будет сканировать сайты вне зависимости от настроек robots.txt

Internet Archive будет сканировать сайты вне зависимости от настроек robots.txt +23

24.04.2017 14:23
marks 68 12200 Источник
Облачные сервисы, Лайфхаки для гиков


Интернет-сайт — это обычный набор файлов и папок, который лежит на сервере. Среди этих файлов почти всегда есть один, который называется robots.txt, его размещают в корне. Он служит для инструктирования «пауков», его настраивают для того, чтобы поисковые роботы понимали, что можно сканировать, а что нет. В ряде случаев веб-мастера закрывают при помощи таких инструкций дублирующийся контент (теги, категории и т.п.) для улучшения SEO-показателей, кроме того, защищают от роботов и данные, которые не должны по какой-либо причине оказаться в сети.

Идея с robots.txt появилась более 20 лет назад и с тех пор, хотя различные настройки для различных поисковых ботов менялись, все работает так же, как и много лет назад. Инструкций, сохраненных в этом файле, слушаются почти все поисковики, а также бот Internet Archive, который бродит по интернету в поисках информации для архивации. Сейчас разработчики сервиса считают, что пришло время перестать обращать внимание на то, что размещено в robots.txt.

Проблема в том, что во многих случаях домены брошенных сайтов «дропаются», то есть не продлеваются. Или просто содержимое ресурса уничтожается. Затем такие домены «паркуются» (с самой разной целью, включая получение денег за размещаемую на припаркованном домене рекламу). Файлом robots.txt веб-мастера обычно закрывают все содержимое припаркованного домена. Хуже всего то, что когда робот Internet Archive видит в файле инструкцию по закрытию директории от индексации, он удаляет уже сохраненный контент для сайта, который раньше находился на этом домене.

Другими словами, был сайт в базе Internet Archive, и нет его, хотя владелец домена уже другой, а содержимое сайта, сохраненное сервисом, давно кануло в Лету. В итоге удаляются уникальные данные, которые вполне могли представлять собой большую ценность для определенной категории людей.

Internet Archive создает «снимки» сайтов. Если сайт существует в течение определенного количества времени, таких «снимков» может быть много. Так что историю развития различных сайтов можно отследить от самого начала до новейшей версии. Пример тому — habrahabr.ru. При блокировании доступа ботам к сайту при помощи robots.txt отследить его историю или получить хоть какую-то информацию становится невозможным.

Несколько месяцев назад сотрудники Internet Archive прекратили отслеживать инструкции в указанном файле на государственных сайтах США. Этот эксперимент прошел успешно и теперь бот Internet Archive прекратит обращать внимание на инструкции в robots.txt для любых сайтов. Если же веб-мастер захочет удалить содержимое своего ресурса из архива, он может обратиться к администрации Internet Archive по почте.

Пока что разработчики будут отслеживать поведение робота и работу самого сервиса в связи с грядущими изменениями. Если все будет хорошо, то эти изменения сохранят.
Как вы считаете, это правильное решение со стороны Internet Archive?

Проголосовало 713 человек. Воздержалось 147 человек.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Поделиться с друзьями
-->

Комментарии (68)


  1. Agel_Nash
    24.04.2017 17:37
    #10026006
    +1

    Теперь некому будет отвечать за утечку персональных данных через Internet Archive. Жаль, далеко не все понимают, что прятать персональные данные через robots.txt это не выход…


    1. grishkaa
      24.04.2017 20:23
      #10026282

      Какая утечка, если эти «персональные данные» уже и так доступны всему интернету?


      1. Agel_Nash
        24.04.2017 21:54
        #10026446

        Ога, да. Смотрим сюда:

        https://partsnb.ru/user/basket?id=17632
         <form action="https://money.yandex.ru/eshop.xml" method="post">
                    <input name="shopId" value="117447" type="hidden"/>
                    <input name="scid" value="64408" type="hidden"/>
                    <input name="sum" value="605.00" type="hidden">
                    <input name="customerNumber" value="Lavmotorz@mail.ru" type="hidden"/>
                                <input name="paymentType" value="AC" type="hidden"/>
                                <input name="orderNumber" value="17632" type="hidden"/>
                    <input name="cps_email" value="Lavmotorz@mail.ru" type="hidden">
                    <input name="cps_phone" value="+7(919)348-11-11" type="hidden">
                    <input name="custName" value="Лавров Георгий Олегович" type="hidden"/> 
                    <input name="custEmail" value="Lavmotorz@mail.ru" type="hidden"/> 
                    <input name="custAddr" value="Челябинск Челябинск, академика королева, 14-54" type="hidden"/> 
                    <input type="hidden" name="shopSuccessURL" value="https://partsnb.ru/payment-thanx">
                    <input type="hidden" name="shopFailURL" value="https://partsnb.ru/payment-error">
                    <input type="submit" value="Оплатить" style="padding:12px 24px;" />
                </form>
        



        1. edogs
          24.04.2017 23:18
          #10026576

          И каким образом интернет архив найдет эту ссылку?
          Гугл понятно — по гугл аналитиксу, по панелькам и так далее.
          Но интернет-архив декларирует именно браузинг.
          Так что проблема именно с данным примером несколько надуманная.


          1. Agel_Nash
            25.04.2017 02:20
            #10026718

            И каким образом интернет архив найдет эту ссылку?

            Да хотя бы из моего комментария. Гугл увидя эту ссылку и заглянув в robots.txt — ее просто проигнорирует. А интернет-архив пойдет дальше. Поэтому давайте не будем путать мягкое с теплым…


            1. Ziptar
              25.04.2017 13:33
              #10027882
              +2

              А может, всё таки, люди будут отучаться оставлять ценности за запертой дверью, в замочной скважине которой оставлен ключ от замка этой двери?
              Какая может идти речь о сохранности персональных данных или о какой либо безопасности, если вся безопасность обеспечивается табличкой «пожалуйста, не заходите сюда и сюда, спасибо за понимание»?


            1. edogs
              26.04.2017 01:40
              #10029252

              Да хотя бы из моего комментария.
              Политика вебархива — индексирование ресурса с главной страницы по внутренним линкам.
              Поэтому на Вашу ссылку на левом ресурсе ему плевать. Это как бы его политика — такая же как раньше соблюдение роботса и теперь отказ от него.

              Поэтому давайте не будем путать мягкое с теплым…
              Например гугл с вебархивом.


            1. skylevels
              28.04.2017 14:02
              #10035352

              Только вчера наткнулся:
              http://webcache.googleusercontent.com/search?q=cache:38y06wAJM0MJ:elpts.ru/node/69/webform-results/table%3Fresults%3D50%26sort%3Dasc%26order%3D%25D0%259E%25D1%2582%25D0%25BF%25D1%2580%25D0%25B0%25D0%25B2%25D0%25BB%25D0%25B5%25D0%25BD%25D0%25BE+&cd=2&hl=ru&ct=clnk&gl=ru
              причем в этой анкете не последние


              1. Agel_Nash
                28.04.2017 19:16
                #10036182

                В robots.txt не запрещены эти страницы


    1. sumanai
      24.04.2017 21:14
      #10026370

      Теперь некому будет отвечать за утечку персональных данных через Internet Archive.

      Думаю, они вполне удалят по личному запросу, если доказать, что там реально утечка. Данная мера- лишь защита от автоматической очистки истории сайта при смене владельца домена.


  1. staker
    24.04.2017 18:00
    #10026038
    +6

    Странное решение. Могли бы сохранять сам robots.txt и не удалять ранее сохранённый контент. Теперь веб мастера будут просто блокировать ненужный им Internet Archive по useragent.


  1. andreymal
    24.04.2017 18:05
    #10026044
    +2

    Наконец-то здравый смысл восторжествовал!


    Старые сайты не вернут, с концами удаляли?


    Вообще возможность запретить сохранять сайт в Wayback Machine хорошо бы оставить для совсем уж параноиков, но не так радикально, как это было раньше (а через явное прописывание какого-нибудь User-Agent: Wayback в robots.txt например)


  1. hardegor
    24.04.2017 18:50
    #10026138
    +1

    Хуже всего то, что когда робот Internet Archive видит в файле инструкцию по закрытию директории от индексации, он удаляет уже сохраненный контент для сайта, который раньше находился на этом домене.

    Я правильно понимаю, что если robot.txt изменился, то уже скачанная информация в архиве удаляться не будет?
    А то статья выглядит как-будто Internet Archive вообще будет игнорировать наличие robot.txt.


    1. alan008
      24.04.2017 21:17
      #10026380

      А он и будет просто его игнорировать, если я правильно понял.


      1. edogs
        24.04.2017 23:25
        #10026582

        Именно игнорировать.
        we stopped referring to robots.txt files on U.S. government and military web sites for both crawling and displaying web pages


        1. hardegor
          25.04.2017 09:47
          #10027152

          Печалька. У меня сайт с большой базой файлов, каталог сканировать разрешено, а скачивание файлов ограничено robot.txt — т.е. отдать юзерам 300-400 файлов в день не проблема, а вот если начнет скачивать какой-нибудь crawler, то канал ляжет. Делать динамическую отдачу не очень-то хочется…


          1. andreymal
            25.04.2017 10:24
            #10027248

            Сабж — очень ленивый crawler, думаю он не создаст проблем


  1. Aversis
    24.04.2017 18:57
    #10026158
    -1

    Прэлэстно! Каков будет следующий шаг?


  1. seven_hh
    24.04.2017 19:24
    #10026204
    +4

    Архив на то и архив чтобы создавать историю. Для меня это новость что архивариусу указывает какой-то robots.txt


    1. Gendalph
      25.04.2017 04:13
      #10026776
      +5

      Как бы robots.txt он на то и robots.txt чтобы указывать всем краулерам куда смотреть, а куда — нет. Чем бот Архива отличается от других ботов?


      1. seven_hh
        25.04.2017 17:51
        #10028526

        Это все равно что
        1. говорить шпиону вот эти данные бери, а эти не трогай
        2. вести исторические данные о ВОВ но при этом намеренно закрыть глаза на что-то важное
        3. и последующие можно придумывать на свой вкус

        Одно дело когда рекомендации robots.txt помогает игнорировать ненужные данные (мусор), другое дело когда намеренно упускается возможность сохранить ценный материал имеющий или будет иметь не только историческую ценность но и народное достояние


        1. Gendalph
          25.04.2017 19:18
          #10028694

          Пример из жизни:


          Сайты на WordPress в определенной конфигурации прячут нутря в /wp/


          Поєтому в robots.txt пишут


          Disallow: /wp/

          На дев-версии у нас стоит


          Disallow: /

          Теперь просто будем по UA закрывать доступ.


          1. andreymal
            25.04.2017 22:53
            #10029040

            Что такое «нутря» в данном случае? У меня пара рандомных вордпресс-сайтов по /wp/ выдаёт ошибку 404


            1. Gendalph
              25.04.2017 23:23
              #10029092

              Мы ставим WP используя Bedrock


              Поэтому сайты видны как обычные сайты, но WP находится в директории '/wp/', соответственно для входа в админку надо идти по адресу /wp/admin


  1. Barafu
    24.04.2017 19:48
    #10026236
    +2

    За robots.txt важную информацию прячут дураки, а нормальные люди прячут там управляющие и технические страницы. Так и вижу: начинающий админ что-то криво настроил и спрятал за robots.txt. Пришёл бот и закольцевался в этой нетленке. Молодому админу пришёл счёт за трафик.


  1. Delics
    24.04.2017 20:59
    #10026350
    +10

    robots.txt был цивилизованным способом сдерживания ботов.

    Если создатели ботов нарушают это негласное соглашение, ботов можно сдерживать и менее цивилизованными способами.


  1. Garbus
    24.04.2017 22:33
    #10026506
    +1

    Хм, ни у кого не возникает ощущения, что всё это до того момента как они пару-тройку раз наступят на «любимую мозоль» правообладаелей? После чего вынуждены будут делить на тех кого пожно архивировать нормально, и тех кого по предварительному договору?


    1. LSDtrip
      25.04.2017 02:19
      #10026716
      +1

      А что могут предъявить то? Все сайты в интернете и их страницы, доступные без авторизация, являются публичной информацией доступной каждому, в том числе и боту. Файл robots.txt лишь рекомендация для бота, если бот не хочет рыть лишние объемы информации, но он вовсе не обязан придерживаться её. Если критические данные по какой-либо причине не должны оказаться в сети, то они должны быть отделены через air gap. Свободы должно быть максимально много для всех (для ботов тоже) и не только в инете.


      1. Garbus
        25.04.2017 04:25
        #10026780

        Ну для сравнения, некоторые здания фотографировать нельзя, владелец данное запрещает. Хотя ходить мимо, и смотреть можно. Так и тут — появиться возможность отсудить денежку, долго ждать не будут.


        1. Deosis
          25.04.2017 07:57
          #10026918

          Приведите пример.
          Иначе можно штрафовать всех художников, прошедших мимо этого здания.


          1. EnigMan
            25.04.2017 14:42
            #10028086

            Насколько я помню, подсветка Эйфелевой башни является предметом авторского права, и распространять ее фото без лицензии ни-ни.

            А по сути возможных претензий правообладателей — веб архив копирует и распространяет информацию. Т.е. правообладатели не против того, чтобы человек зашел на сайт и просмотрел лицензионный контент, но против, чтобы его распространял еще кто-либо.


        1. Charg
          25.04.2017 09:25
          #10027074

          Ну для сравнения, некоторые здания фотографировать нельзя, владелец данное запрещает.

          И насколько юридически корректен такой запрет (и в какой, кстати, стране)? А то с таким успехом можно запретить с себя взимать налоги.


          1. drcolombo
            25.04.2017 12:34
            #10027680

            В Германии, при попытке фотографирования частного дома хозяин может выйти и попросить этого не делать, а также удалить уже снятый контент. Маловероятно, конечно, что он пойдет до суда, если Вы откажетесь, то полицию вызвать может запросто.
            Также запрещена (именно запрещена) фотосъемка самих полицейских во время их работы.


            1. EviGL
              25.04.2017 18:30
              #10028618
              -1

              Забавно, это, видимо, тот случай, когда российские законы лучше немецких.
              Интересно, какой смысл в запрете съёмки полиции?
              В гугле нашёл пишут что это, мол, из-за права полицейского на приватную личную жизнь (в общественном месте при исполнении служебных обязанностей, ага).
              Ну и, вроде как, не запрещена именно съёмка полицейских во время работы, а запрещена ровно так же как и съёмка кого угодно когда угодно. Или я не прав и есть какой-то смысл?


              1. edogs
                26.04.2017 01:47
                #10029258

                какой смысл в запрете съёмки полиции?
                Где-то это сложилось исторически, по разным причинам.
                Где-то это направлено на защиту прав неискажения информации о работе полиции (видео с камер видонаблюдения — ок, а вот частная съемка обрезанная в самом интересном месте уже нет). Вполне достаточно съемок когда полицейского сначала битой избивают трое малолетних имбицилов за то что он увидел их за изнасилованием девочки из детского сада, а потом появляется видео как полицейский гонится за «несчастным ребенком» и вбрасывается в общество.
                А где-то это связано с закрытостью информации о работе полиции, в основном это касается спец.подразделений. По той же причине закрывают методы их подготовки, инструктаж, не дают фотографировать стратегические объекты и т.д… Затрудняется незаметность получения информации для криминальных элементов.
                В общем ситуации разные, где-то обоснованные, где-то нет, вот так сразу запрет съемок действий полиции назвать чем-то плохим нельзя.

                При чем запрет по 2 варианту часто снимается в тех случаях, когда полицейских обязывают носить камеру для регистрации своих действий, т.к. тогда шансы на фейки резко уменьшаются.


        1. LSDtrip
          25.04.2017 10:57
          #10027368

          Почти все запреты на фотографию в общественных местах незаконны. Независимо от страны. Могут быть проблемы с фотографированием режимных объектов в некоторых странах типа Израиля, но они связаны с подозрением на шпионаж, а не нарушение авторских и прочих прав.


          1. ksil
            25.04.2017 13:23
            #10027846

            Еще может быть нарушение частной жизни (как в примере про Германию, видимо).


  1. FSA
    25.04.2017 00:01
    #10026622
    +4

    А в чём проблема не применять ограничения robot.txt для уже созданного архива? Берём текущий файл и создаём с этого момента копию по его правилам. Если они дропают весь сайт, то флаг в руки. на кой чёрт его сохранять. Нормальный сайт не будет так делать, да и старой информации там, скорее всего, уже нет.


  1. Stiver
    25.04.2017 00:47
    #10026668
    -1

    Инструкций, сохраненных в этом файле, слушаются почти все поисковики

    По опыту последних лет скорее наоборот — почти все игнорируют. Помогает только фильтровать user agent и показывать им вручную шиш 403.


    1. hardegor
      25.04.2017 09:50
      #10027156

      А меня на сайте постоянно пасутся разные поисковики — ни разу «за флажки не заходили».


  1. mwambanatanga
    25.04.2017 05:43
    #10026828

    Пошёл удалять robots.txt со всех сайтов. Только зря место занимают. (сарказм, если что)

    А вообще, нарушителей конвенции полагается бить.


  1. Alter2
    25.04.2017 08:30
    #10026950
    +5

    Странное решение. Чтобы справиться с описанной проблемой, достаточно бы было отключить влияние robots.txt на прошлое: был документ доступен тогда-то — значит и в снимке сайта на указанную дату должен быть доступен. Зачем полностью игнорировать — непонятно. Хотя «приватности больше нет, смиритесь», наверняка какой-нибудь АНБ-аналог архива уже давно выкачивает и сохраняет все доступное содержимое, в том числе через не прикрытые общеизвестные уязвимости, под видом хакерской активности. Терабайты дешевеют, а информация дорожает.


  1. EndUser
    25.04.2017 08:47
    #10026980

    Можно точнее рассказать, что произошло, а) или б)?
    а) архив отныне будет архивировать всё, невзирая.
    б) при противоречии нового robots.txt с архивом архив отказывается стирать ранее архивированное.
    Мне кажется, что б), но комментаторы имеют в виду а)


  1. Tachyon
    25.04.2017 08:54
    #10026992

    Стоп!

    Другими словами, был сайт в базе Internet Archive,
    И их ещё не забанили в России? странно, там же по любому есть архив какого-нибудь запрещённого сайта. Сожжём библиотеку из-за одного листа! Вперёд Роскомпозор! (сарказм, для тех кто не понял, а то наминусуют сейчас тут)


    1. herr_kaizer
      25.04.2017 11:51
      #10027518

      Давно уже забанили.


    1. KorDen32
      25.04.2017 12:54
      #10027756
      +1

      Еще в 15 году. Ну и так еще много


      1. Temych
        25.04.2017 14:03
        #10027978

        Угу.
        Правда год назад все записи исключили из реестра.


        1. Samoglas
          28.04.2017 22:09
          #10036432

          Периодически из-за этого становится неудобно, у моего провайдера он очень медленно начинает работать (и так то не быстро) в случае блокировки. Так сразу и не поймешь, снова его забанили или он просто тормозит.

          Их забанят еще не раз, в стране, в которой текст «Плана Даллеса» попал в список экстремистских материалов, а Свидетели Иеговы — теперь запрещенная за экстремизм организация.
          Вот такая ссылка:
          https://web.archive.org/web/20170428190037/https://ru.wikipedia.org/wiki/План_Даллеса
          и можно банить.
          Вместе с Википедией, конечно же.


  1. Ziptar
    25.04.2017 13:10
    #10027818

    Поскольку Internet Archive — это не тот сервис, который каким-либо образом влияет на доходы сайтов с рекламы — этот шаг давно пора было сделать. Вопросы безопасности иррелевантны, т.к. никакой безопасности, обеспечиваемой robots.txt нет и быть не может.


    1. herr_kaizer
      25.04.2017 15:55
      #10028282

      Это вопрос банальной сетевой этики.


      1. Ziptar
        25.04.2017 15:57
        #10028288

        Персональные данные — это вопрос безопасности, а не сетевой этики.


        1. l0ser140
          26.04.2017 05:00
          #10029344

          Я имел дело с одним криво написанным каталогом интернет магазина. Когда по нему начинали ходить кравлеры, они индексировали сотни тысяч страниц (за счет использования фильтров каталога), генерируя сотни гигабайт кэша в сутки.
          Одной регулярной в robot.txt вышло отучить их использовать фильтры.

          Если какие-то кравлеры будут игнорировать предписания robot.txt, ну будут получать 403 по юзер-агенту.


          1. Ziptar
            26.04.2017 06:53
            #10029370

            Я имел дело с одним криво написанным каталогом интернет магазина.

            Ключевое слово — криво.

            Если какие-то кравлеры будут игнорировать предписания robot.txt, ну будут получать 403 по юзер-агенту.

            Опять же, безопасность тут не при делах. Проверка юзер-агента как средство обеспечения безопасности — как robots.txt, то есть не имеет к безопасности никакого отношения.

            Подчёркиваю, я говорю о безопасности, а не о способе, правилах и этике взаимодействия кравлеров и сайтов.


            1. l0ser140
              26.04.2017 16:45
              #10031006
              +1

              Так а при чем тут безопасность? robots.txt задуман был не для обеспечения безопасности, а для управления кравлерами.

              А теперь получается, что владелец «легального» кравлера заявляет, что не собирается следовать стандарту. Что мгновенно переносит его в разряд «нелегальных» на один уровень со сканерами уязвимостей и т.д.


              1. Ziptar
                26.04.2017 17:17
                #10031106

                Скорее для взаимодействия с поисковыми краулерами. Логично, что владелец сайта хочет, что бы индексировался не весь контент, и логично, что поисковикам не нужно индексировать всякий мусор.

                Проблема здесь в том, что механизм взаимодействия сайта с поисковиками владельцы сайтов расширили до взаимодействия с любыми краулерами вообще. Это неправильная позиция изначально.


                1. Ziptar
                  26.04.2017 17:21
                  #10031120

                  Скорее для взаимодействия с поисковыми краулерами.

                  Скорее для взаимодействия с краулерами поисковиков.

                  Так точнее.


      1. fukkit
        28.04.2017 14:02
        #10035364

        Согласен.
        Из серии «Нам плевать, что вы просите не ходить здесь и не фотографировать. Мы будем. Потому что можем и законом не запрещено.»


  1. daggert
    25.04.2017 17:22
    #10028456

    Вообще немного странно. У меня через robots.txt закрыты разделы статистики людей (никакой приватной инфы) и разного рода временные файлы. Получается при скане этот мусор будет попадать в архив? Зачем?


    1. andreymal
      25.04.2017 17:58
      #10028546

      Вот статистику как раз будет очень интересно отслеживать в зависимости от времени)


      1. daggert
        25.04.2017 23:31
        #10029110

        Поверьте — там не та статистика которая будет интересна кому-либо кроме своих десктопных приложений. А файлы еще xml — они точно в индекс попадут… По итогу будут лежать и впустую занимать место архива. Мне, как архивисту, это не очень понятно.


  1. DistortNeo
    25.04.2017 17:44
    #10028512
    +1

    Больше всего раздражает, когда после изменения robots.txt перестают быть доступными старые, уже скачанные страницы. Надеюсь, именно это они и исправили.


  1. Darth_Biomech
    26.04.2017 01:54
    #10029264
    +1

    Это не «эксперимент».
    the Internet Wayback Machine изначально так и работал. Потом они включили это корявое «уважение» robots.txt, и в архиве стали полностью недоступными истории этак 70% сайтов, включая тот, который мне был очень нужен (один форум образца 2006 года, на котором я создавал тему которую был бы не прочь перечитать).


    1. andreymal
      26.04.2017 08:13
      #10029420

      Продублирую свой коммент сюда, чтоб новый народ увидел

      Проверить прям щас не на чем, но у меня иногда прокатывало открытие страницы как ифрейма или как (внезапно) картинки, то есть если вместо
      https://web.archive.org/web/ГГГГММДДЧЧММСС/http://example.org/
      написать
      https://web.archive.org/web/ГГГГММДДЧЧММССif_/http://example.org/
      или
      https://web.archive.org/web/ГГГГММДДЧЧММССim_/http://example.org/
      , то веб-архив может показать страницу, игнорируя все эти robots.txt


  1. edwardspec
    28.04.2017 13:48
    #10035234

    Ну вот на сайте с MediaWiki на каждой странице есть ссылка «Редактировать», открывающая форму для редактирования.
    Сама страница статическая и легко кэшируется (и отдаётся CDN или местным reverse proxy типа Varnish), а все хиты по ссылке «Редактировать» доходят до вызова PHP.

    Соответственно, в robots.txt прописывают URL страницы редактирования, и краулеры там без надобности не бегают. А игнорируя robots.txt, они будут напарываться на throttling в fail2ban.


  1. ppl2scripts
    28.04.2017 14:02
    #10035350
    +1

    if ($http_user_agent ~ (archive.org_bot)) {
    return 403;
    }


  1. Protagores
    28.04.2017 14:02
    #10035374
    +1

    А как же «ловушки» для спам-ботов?


    Поясню — на некоторых сайтах присутствуют обработчики специального вида URL, содержащего что-то наподобие /guestbook. При этом на страницах имеются анкоры, запрятанные от пользователя, просматривающего его через браузер, но видимые для парсера такого спам-бота. При первом же GET-запросе на такой URL IP-адрес источника автоматически вносится в банлист, дабы таким образом прекратить дальнейшие пакости с его стороны. А для «хороших» индексирующих роботов явным образом указывается правило Disallow в robots.txt, что в случае с Internet Archive, полагаю, уже не поможет.


    Конечно, есть ещё атрибут rel="nofollow", но он имеет свойство «отпугивать» и зловредов, которые в результате такую «ловушку» обходят стороной.


    1. dimm_ddr
      02.05.2017 10:35
      #10040340

      А что мешает спам ботам также читать robots.txt?


      1. sumanai
        02.05.2017 11:58
        #10040518

        Их тупость))
        Пока этот трюк не распространён, он работает. Впрочем, как и любой другой трюк.

МЕТКИ

  • Хабы
  • Теги

Лайфхаки для гиков

Облачные сервисы

inernet archive

сайты

поисковые сервисы

пауки

СЕРВИСЫ
  • logo

    CloudLogs.ru - Облачное логирование

    • Храните логи вашего сервиса или приложения в облаке. Удобно просматривайте и анализируйте их.
Все публикации автора
  • Телескоп «Кеплер», возможно, обнаружил спутник у экзопланеты +16

    • 02.08.2017 15:37

    HP создала носимую VR-систему для обучения людей в виртуальной реальности +8

    • 01.08.2017 13:08

    Злоумышленники взломали сеть телеканала HBO, уведя сценарий «Игры престолов» +17

    • 01.08.2017 10:22

    Оператор ботнета Mirai получил условный срок +13

    • 31.07.2017 19:45

    Роскомнадзор запретил третьим лицам использовать данные пользователей «ВКонтакте» +27

    • 31.07.2017 18:19

    Президент России подписал закон о запрете анонимайзеров и VPN +63

    • 30.07.2017 18:34

    Гонконг вскоре может задохнуться под завалами собственных отходов +17

    • 30.07.2017 17:34

    На DEF CON американские терминалы для голосования взломали за 90 минут +12

    • 30.07.2017 13:57

    Умную автомойку можно превратить в ловушку для автомобиля и пассажира +8

    • 30.07.2017 11:51

    Мы и все, что нас окружает, на 50% состоит из материи, попавшей сюда из далеких галактик +17

    • 30.07.2017 09:59

Подписка


ЛУЧШЕЕ

  • Сегодня
  • Вчера
  • Позавчера
05:16

Дело о Транзитроне — или Ламповый тьюториал для любопытных +11

04:53

Баффет наконец накопил достаточно для выхода на пенсию, а в OpenAI выкатили новый хитрый план +7

03:22

Как за один вечер создать репутацию вашего стартапа в поисковой выдаче: 20 бесплатных площадок для быстрого буста +7

06:16

Отправка label в систему логирования и мониторинга из метаданных GitLab Runner (job_id, pipeline_id) +5

06:53

Важное обновление BatteryTest 2 +3

07:00

DevOps без боли: 8 инструментов для мониторинга, автоматизации и стабильной работы команд +2

05:00

Системный аналитик и управление хаосом на проекте. Часть 1: диагностика хаоса +2

03:14

Умный бизиборд +2

06:16

WPF приложения на Android, iPhone, iPad, Mac и Windows +1

05:30

Как автоматизация рутинных процессов помогает не доводить клиента до истерики +1

04:29

Webhook у Harbor или как я оповещения о пушах docker images нашей команды делал часть — 2 +1

04:03

Должен ли быть бизнес справедливым? Часть 2 +1

19:36

ООП не мертво. Вы просто пользуетесь им как молотком по клавиатуре +70

13:01

Как serverless-архитектура влияет на модернизацию инфраструктуры +32

09:01

Google Maps не знают, как работает адресация улиц +28

08:00

Электробус из 1907 года от мошенников-стартаперов. И да, он возил пассажиров +27

10:05

Разговоры с мамой, остросюжетный роман и дофаминовые ловушки. Что и зачем читать продакту в 2025 году +26

06:30

Дискретные тригонометрические функции, машинный эпсилон и автоматическое дифференцирование +25

16:08

Как отключить слежку на умном ТВ +19

07:00

От песка в глазах к панораме: как 49-дюймовый монитор заменил два 27-дюймовых и сделал жизнь и работу комфортнее +17

15:16

Заговор разработчиков против корпораций: работа с командой +16

12:28

Как устроен arXiv — самая преобразующая платформа во всей науке +16

10:00

Multi-GPU Rendering для игр жив? +16

09:15

Wizordum — пример правильной ностальгии +15

17:21

CTO: рынок, стратегия и инженерная культура +12

17:01

PTTJS — формат текстового хранения комплексных таблиц +12

14:46

Что открыть в 2025, если ты не Илон Маск и не хочешь продавать курсы? +12

14:00

Корпоративное ЕГЭ или как обучение сотрудников НЕ влияет на рост и эффективность +11

05:47

Убить героя: почему героизм — это выбор легкого пути, который вредит не только вам, но и окружающим +10

16:24

Корутины в C++20: архитектура и практическое применение +9

18:33

Пишем (и используем) ИИ-агент на Gradle и Ollama +8

18:20

Подмена E-EDID на Windows +7

19:18

Конституция против цензуры: история одного иска в суд +141

14:05

Пишем один «exe», который работает на 3-х разных ОС без перекомпиляции +121

09:01

Спидометр для электромопеда на микроконтроллере PIC16F628A +57

11:02

Низкоуровневое программирование под 8086 для любопытных, часть 2 +50

14:12

Оцифровка показаний стрелочного манометра в Home Assistant +43

13:01

Про человека и свободу — реально главный вопрос жизни, вселенной и всего такого +40

08:00

Архитекторы чипов: как Китай строит инфраструктуру по производству современных процессоров +38

16:46

Творческая утилизация клавиатур +33

09:49

Не смотрите наверх +28

06:47

Размышления об интервью +23

13:01

Промпт-инжиниринг на основе здравого смысла: как понимать LLM и получать от них предсказуемый результат +22

11:52

Python, Java, C++ и Go — как появились популярные языки программирования +21

09:00

Фронтенд — новый легаси: Как мы проспали event-driven революцию +21

08:02

Задачи на собеседованиях. Денежные переводы в SQL. Обновление счетов и уровни изоляций +21

19:18

Проводим слепой тест переводов прямо на Хабре +20

17:24

Инженерия — не наука +18

08:24

Huawei и HarmonyOS PC: китайский десктоп с собственной ОС появится уже в этом месяце. Что это будет? +18

15:14

Почему нужно знать историю фронтенда, даже если просто пишешь на React +12

13:28

Немое кино: как инженеры превратили тени в магию экрана: «бегущие» картинки, фоторужья и 24 кадра в секунду +10

14:22

Есть ли смысл применять SOLID в React? +8

ОБСУЖДАЕМОЕ

  • Конституция против цензуры: история одного иска в суд +141

    • 224   10000

    От песка в глазах к панораме: как 49-дюймовый монитор заменил два 27-дюймовых и сделал жизнь и работу комфортнее +17

    • 186   27000

    Проводим слепой тест переводов прямо на Хабре +20

    • 79   2600

    Задачи на собеседованиях. Денежные переводы в SQL. Обновление счетов и уровни изоляций +21

    • 77   16000

    Аркадий Стругацкий против Deepseek и ChatGPT: как ИИ повлияет на художественный перевод +7

    • 75   6600

    ООП не мертво. Вы просто пользуетесь им как молотком по клавиатуре +75

    • 73   15000

    Инженерия — не наука +18

    • 62   3100

    «Накопитель риска» в команде: как одиночные эксперты тормозят развитие +2

    • 61   4900

    Фронтенд — новый легаси: Как мы проспали event-driven революцию +21

    • 59   24000

    Не смотрите наверх +28

    • 52   13000

    «640 кбайт хватит для всего» +5

    • 47   13000

    Пишем один «exe», который работает на 3-х разных ОС без перекомпиляции +122

    • 40   12000

    Google Maps не знают, как работает адресация улиц +28

    • 37   5100

    Оцифровка показаний стрелочного манометра в Home Assistant +44

    • 37   7100

    Про человека и свободу — реально главный вопрос жизни, вселенной и всего такого +40

    • 33   5200
  • Главная
  • Контакты
© 2025. Все публикации принадлежат авторам.