crawljob

Целью исследования являлось получение актуального списка всех активных доменов в зоне .RU, к 01.01.2016 зарегистрировано в которой было 5040277 имён. Приняли решение пройтись по каждому имени краулером и проанализировать результат.

Ответы серверов распределились следующим образом:

rc

Полная таблица c кодами ответов
rc cnt %
200 2670175 53.0
IPFAIL 826869 34.9
TIMEOUT 486924 7.4
301 444719 7.3
404 191831 3.4
302 176133 3.2
403 108624 2.1
503 43330 0.8
CHARSETFAIL 32606 0.6
500 19603 0.4
401 6847 0.1
303 5919 0.1
429 5501 0.1
502 5340 0.1
402 4232 0.1
0 2954 0.1
NONHTML 1796 0.0
423 1688 0.0
400 1654 0.0
409 1125 0.0
307 1014 0.0
521 273 0.0
999 203 0.0
410 191 0.0
523 150 0.0
504 138 0.0
509 98 0.0
508 93 0.0
204 46 0.0
520 45 0.0
434 32 0.0
CLEX 32 0.0
406 20 0.0
501 14 0.0
479 8 0.0
407 8 0.0
418 7 0.0
405 7 0.0
451 4 0.0
435 4 0.0
304 4 0.0
201 3 0.0
300 2 0.0
456 2 0.0
3 1 0.0
507 1 0.0
101 1 0.0
126 1 0.0
422 1 0.0
557 1 0.0
412 1 0.0
413 1 0.0
420 1 0.0
Total: 5040277 100.0



IPFAIL — отрезолвить домен не получилось (не делегирован, не указаны сервера имен и т.д.).
TIMEOUT — IP был получен, но не отдал ничего и отвалился по таймауту.
CHARSETFAIL — кодировку контента распознать не удалось.
NONHTML — сайты, веб-сервера которых не интерпретировали скрипты, а отдали их текстом вместе с реквизитами подключения к базам и прочими прелестями.
CLEX — исключения краулера по размеру ответа > 10мб.

301 редирект (постоянный):

301-redirect
bulk — зоопарк из сеток сателлитов, альтернативные адреса сайтов, прочее.
cnt %
http:// www.domain 215289 48.4
bulk 144275 32.4
http:// domain/page 76417 17.2
https:// domain 7617 1.7
https:// www.domain 1121 0.3
Total: 444719 100.0

302 редирект (временный):

302-redirect

bulk — всё те же сетки, ошибки, установщики различных cms, прочее.
cnt %
bulk 135464 76.9
http:// domain/page 22658 12.9
http:// www.domain 10660 6.1
https:// domain 7168 4.1
https:// www.domain 183 0.1
Total: 176133 100.0

В редирект через meta refresh мы тоже заглядываем, но в этот раз ничего интересного там не наблюдается. Самый популярный сопособ отправить пользователя на связку эксплойтов.

Все 2670175 доменов, отдавших 200 ОК крутятся на 192213 IP адресах, top 10:
ip cnt example_url
109.206.190.54 180983 http://ksimelin.ru
188.166.49.110 40199 http://samoobsluga.ru
81.177.141.15 15040 http://plusheviy-buket.ru
89.111.167.3 11887 http://ipoezd.ru
94.76.205.132 11774 http://mediatr.ru
78.108.80.238 10937 http://bikesurfing.ru
78.108.86.63 10883 http://asp-v.ru
185.32.57.224 10157 http://salgroup.ru
188.120.232.174 9431 http://moscowspa.ru
199.59.243.120 9057 http://asolutbank.ru

Вот тут мы встречаем по-настоящему интересных ребят: 180983 домена на ip 109.206.190.54 (6,77% от всех активных) являются зеркалами www.homes.ru (сверяли не только по ip, естественно). С огромным отрывом уходят даже от парковок. Работают с размахом.

Немного средних значений контентной составляющей главных страниц рунета:
Средняя длина тайтла 47
Средняя длина кейвордов 220
Среднее количество слов на странице 515
Средний вес страницы (в октетах) 42320

На 262 доменах в тексте встречается слово ‘хабрахабр'.

Ссылки с главных страниц на профили пользователей хабра
user anchor cnt
@WildGreyPlus WildGreyPlus 17
@DaryaKorsak DaryaKorsak 17
@ptsecurity ptsecurity 17
@DenisIzmaylov DenisIzmaylov 17
@pkruglov pkruglov 17
@maisvendoo maisvendoo 17
@alexsoft alexsoft 17
@SmartEngines SmartEngines 17
@DrMefistO DrMefistO 17
@DenisVasilyev DenisVasilyev 17
@yourdestiny 4
@anatoly_rr Хабр 2
@taxi5mblog 2
@gurylyov habr 2
@kzotov Хабрахабр 1
@couragic couragic 1
@nProfessor habrahabr.ru 1
@efimich habrahabr.ru/users/efimich/ 1
@nektodev   1
@alexchernyy Habrahabr 1
@ftp27 1
@constructive На Хабре 1
@ilusha_sergeevich Полезности (от ilusha_sergeevich) 1
@pas 1
@rock 1
@payonline Habrahabr 1
@softlink Softlink 1
@blv Борисом Вольфсоном 1
@ilusha_sergeevich дискуссии в группах, подкасты на тему интернета 1
@teaminds Habrahabr 1
@nikmelnikov хабре 1
@jaloveast1k 1
@Sacret 1
@bredun 1
@omegicus Блог 1
@xnim 1
@nkochnev Habrahabr 1
@brntsrs хабр 1
@splurov Хабрахабр 1
@batazor 1
@heath автор статей на Хабрахабре 1
@kriptomen Habrahabr (один из…) 1
@sil1999 1
@Advertone Хабрахабр 1
@mwsoft 1
@superalesha habrahabr 1
@iserdmi хабрахабре 1
@cadmy link 1
@ksdaemon Хабрахабр 1
@invizory Habr 1
@yegorf1 H 1
@zoriko Zoriko 1
@nickurs 1
@asommer 1
@d530 HABR.RU 1
@polar Polar 1
@DataArt Habrahabr 1
@silvansky silvansky 1
@jokerov jokerov 1
@grachevamari grachevamari 1
@andruekonst Habrahabr 1
@artoodetoo Habrahabr 1
@ihhabr Habrahabr 1
@ustas 1
@alizar alizar 1
@wilelf 1
@rebirther23 1
@ordos Хабрахабр 1
@shukshinivan 1
@falula falula 1
@Dobrii habrahabr 1
@denxc 1
@garstelecom 1
@shlom HabrahabrHabrahabr.ru 1
@PavlovM пишу на хабр 1
@iley iley 1
@noldo32 Я на Хабре 1
@valerasergeevich H 1
@kachkaev мой аккаунт на Хабрахабре 1
@icw82 Хабрахабр 1
@skutin Habrahabr 1
@genixg 1
@sirus sirus 1
@codefucker Хабр 1
@divan0 divan0 1
@devpreview 1


Список доменов отдавших 200 OK dataoperator.ru/ru_domains_200_ok.zip

Комментарии (28)


  1. askbow
    08.01.2016 14:00

    А сколько ещё сайтов на username.domain.ru или даже domain.ru/~username!

    Не знаете, что за данные отдают те 32 сайта, что попали в исключение CLEX?


    1. daocrawler
      08.01.2016 14:21

      В основном это сайты, скрипты которых генерируют дикое количество ошибок, пример: itect.ru


      1. askbow
        08.01.2016 14:38
        +2

        Спасибо! Я думал, может там поток каких-то полезных данных)

        N.B. любопытство сгубило кошку; было ошибкой открыть указанный вами сайт: тор-браузер завис через пару секунд. И ещё WOT говорит о дурной репутации ресурса.


    1. ivan386
      08.01.2016 14:22

      Это можно уже не считать. Зарегистрировав домен второго уровня автоматом получаешь возможность использовать и третий и четвёртый и т.д. Я на одном сайте использую их для разделов. Наклепать большое количество ничего не стоит. Также делаю редирект со всех доменов третьего уровня на главную. Но правда последний раз когда купил дешовый хостинг у этой компании там эту возможность попортили.


  1. biziwalker
    08.01.2016 14:14

    Извиняюсь за возможно глупый вопрос, но откуда взяты эти 5040277 доменов? Я недавно искал, находил много зональных баз, но они неактуальные



  1. vanxant
    08.01.2016 21:18

    204 не попадались?)


    1. daocrawler
      08.01.2016 22:02
      +1

      46 штук. Есть в таблице.


  1. erlyvideo
    08.01.2016 23:12

    как так эти homes сделали столько доменов?

    Это же всё таки дорого.


    1. pansa
      08.01.2016 23:47

      Оптом дешевле. Да и дорого — это относительно. Для частного лица — возможно, для крупного торгаша недвижкой — не так уж и много. Может есть друзья в регистраторе. Мало ли вариантов.


      1. pansa
        09.01.2016 00:15
        +3

        Ну, собственно вот.
        Сайт homes.ru, http://www.homes.ru/about_company
        «Фактический адрес: 105120, г. Москва, 3-й Сыромятнический пер., д. 3/9, стр. 6»
        Регистратор домена — http://www.salenames.ru/ru/page/kontakty
        «Фактический адрес
        105120, г. Москва, 3-й Сыромятнический переулок, дом 3/9, строение 6»

        Как говорят некоторые копатели истины — «Совпадение? Не думаю!...» (с) =)


        1. pinkerton
          09.01.2016 11:43

          объясните, какая минимальная цена будет для homes, если у них свой регистратор? 0 или есть какой-то минимум?


          1. pansa
            09.01.2016 14:32

            Ник ваш в тему =)
            Про цену не знаю, но если это одна контора, то смысла выставлять счет самим себе, думаю, нет.
            Сама по себе поддержка записей в dns не особо затратна, если вся инфраструктура уже настроена (регистратор).
            Думаю, это чей-то разносторонний бизнес — и регистратор с признаками сквоттинга, и недвижка эта, плюс если покапаться в подсетках AS-ки, на которой они сидят, обнаруживается целая кладезь порнухи ( практически вся 109.206.188.0/23 ). Дальше не копал, но профиль примерно такой вырисовывается.


          1. Ozamodaz
            11.01.2016 14:23

            Нижней планкой затрат будет закупочная стоимость этих доменов в Реестре .RU, как для регистратора.


            1. pinkerton
              12.01.2016 05:08

              сколько ±рублей? Десять или пятьдесят?


    1. pansa
      09.01.2016 00:00

      А, так это сквоттеры обычные! Очень похоже (я всё не проверял, конечно), что все остальные «зеркала» — сквоттерские, просто на них заглушка с рекламой этой недвижимости. Для примера — editpost.ru


  1. Rastler
    09.01.2016 01:18

    Похоже не все.


  1. UserSide
    09.01.2016 03:56

    NOSTALGIE.RU REGRU-RU 04.09.1996 01.10.2016 01.11.2016 1

    Самый первый домен в базе, судя по датам регистрации.
    Символично.


    1. UserSide
      09.01.2016 04:00

      upd: Судя по всему популярное место было (и есть?)
      web.archive.org/web/20010202161900/http://www.nostalgie.ru/responses/responses.html


  1. propovednik
    09.01.2016 07:15

    Занимательная статистика. А кто-нибудь видел подобный список доменов для .kz или .by?


    1. pansa
      09.01.2016 22:32

      Для kz не видел, попытки официально получить файлы зон .by приводили к необходимости получения разрешения у местной службы госбезопасности, забыл как их там. В общем, чуть ли не у батьки разрешение нужно получать %)
      Еще очень хочется зону UA, но возможность её получения из РФ последние годы резко осложнилась по понятным причинам =(
      Если у кого-то есть доступы и желание обмениваться — прошу в приват. com, net, org, info, biz, mobi и другие — есть что предложить.


  1. POPSuL
    09.01.2016 18:16

    Порадовало наличие доменов, по которым сервер отвечает 418 I'm a teapot =)


  1. dlukyanov
    09.01.2016 21:59

    Приоткройте завесу тайны: на чем написан краулер? Как долго обрабатывалось 5М доменов и на каких мощностях?

    Еще интересно, сколько доменов вам ответили, что они DNS sinkhole?


    1. daocrawler
      09.01.2016 23:00
      -5

      Приоткройте завесу тайны: на чем написан краулер? Как долго обрабатывалось 5М доменов и на каких мощностях?


      В рамках данной статьи раскрытие технических особенностей системы не предполагалось.

      Еще интересно, сколько доменов вам ответили, что они DNS sinkhole?

      Что вы имеете в виду?


      1. dlukyanov
        09.01.2016 23:09

        В рамках данной статьи раскрытие технических особенностей системы не предполагалось.

        Жаль, чисто с т.з. статистики ценности в статье как-то маловато.

        Что вы имеете в виду?

        Это: en.wikipedia.org/wiki/DNS_sinkhole. Обычно такие домены отвечают вам статусом 200, но в заголовках ответа есть что-то типа «X-Sinkhole: Malware sinkhole». Если при сканировании вы не смотрели заголовки, то теперь уже это никак не понять…


        1. daocrawler
          10.01.2016 00:55

          Совершенно не обязательно 200 ok.

          Пример:

          404 Not Found
          Server=nginx 1.1.19
          Date=Fri, 01 Jan 2016 12:37:16 GMT
          X-Malware-Sinkhole=Arbor Networks
          Connection=close
          content-length=0

          Доменов, с заголовком Sinkhole = 32.


          1. dlukyanov
            10.01.2016 22:43

            Совершенно не обязательно 200 ok.
            Ну да, я поэтому и написал «обычно»…

            Доменов, с заголовком Sinkhole = 32.
            Спасибо! Я думал их будет гораздо больше.


  1. rhamdeew
    11.01.2016 12:54

    Довольно интересный пост. Спасибо!
    Особенно полезно было узнать где брать список всех рушек.

    Вообще такие посты с перебором всех доменных имен или ip не дают забыть об элементарной безопасности. А то есть товарищи которые оставляют некоторые сервисы в открытом виде мотивируя это тем что «никто же не знает этот адрес кроме меня»