Целью исследования являлось получение актуального списка всех активных доменов в зоне .RU, к 01.01.2016 зарегистрировано в которой было 5040277 имён. Приняли решение пройтись по каждому имени краулером и проанализировать результат.
Ответы серверов распределились следующим образом:
rc | cnt | % |
200 | 2670175 | 53.0 |
IPFAIL | 826869 | 34.9 |
TIMEOUT | 486924 | 7.4 |
301 | 444719 | 7.3 |
404 | 191831 | 3.4 |
302 | 176133 | 3.2 |
403 | 108624 | 2.1 |
503 | 43330 | 0.8 |
CHARSETFAIL | 32606 | 0.6 |
500 | 19603 | 0.4 |
401 | 6847 | 0.1 |
303 | 5919 | 0.1 |
429 | 5501 | 0.1 |
502 | 5340 | 0.1 |
402 | 4232 | 0.1 |
0 | 2954 | 0.1 |
NONHTML | 1796 | 0.0 |
423 | 1688 | 0.0 |
400 | 1654 | 0.0 |
409 | 1125 | 0.0 |
307 | 1014 | 0.0 |
521 | 273 | 0.0 |
999 | 203 | 0.0 |
410 | 191 | 0.0 |
523 | 150 | 0.0 |
504 | 138 | 0.0 |
509 | 98 | 0.0 |
508 | 93 | 0.0 |
204 | 46 | 0.0 |
520 | 45 | 0.0 |
434 | 32 | 0.0 |
CLEX | 32 | 0.0 |
406 | 20 | 0.0 |
501 | 14 | 0.0 |
479 | 8 | 0.0 |
407 | 8 | 0.0 |
418 | 7 | 0.0 |
405 | 7 | 0.0 |
451 | 4 | 0.0 |
435 | 4 | 0.0 |
304 | 4 | 0.0 |
201 | 3 | 0.0 |
300 | 2 | 0.0 |
456 | 2 | 0.0 |
3 | 1 | 0.0 |
507 | 1 | 0.0 |
101 | 1 | 0.0 |
126 | 1 | 0.0 |
422 | 1 | 0.0 |
557 | 1 | 0.0 |
412 | 1 | 0.0 |
413 | 1 | 0.0 |
420 | 1 | 0.0 |
Total: | 5040277 | 100.0 |
IPFAIL — отрезолвить домен не получилось (не делегирован, не указаны сервера имен и т.д.).
TIMEOUT — IP был получен, но не отдал ничего и отвалился по таймауту.
CHARSETFAIL — кодировку контента распознать не удалось.
NONHTML — сайты, веб-сервера которых не интерпретировали скрипты, а отдали их текстом вместе с реквизитами подключения к базам и прочими прелестями.
CLEX — исключения краулера по размеру ответа > 10мб.
301 редирект (постоянный):
bulk — зоопарк из сеток сателлитов, альтернативные адреса сайтов, прочее.
cnt | % | |
http:// www.domain | 215289 | 48.4 |
bulk | 144275 | 32.4 |
http:// domain/page | 76417 | 17.2 |
https:// domain | 7617 | 1.7 |
https:// www.domain | 1121 | 0.3 |
Total: | 444719 | 100.0 |
302 редирект (временный):
bulk — всё те же сетки, ошибки, установщики различных cms, прочее.
cnt | % | |
bulk | 135464 | 76.9 |
http:// domain/page | 22658 | 12.9 |
http:// www.domain | 10660 | 6.1 |
https:// domain | 7168 | 4.1 |
https:// www.domain | 183 | 0.1 |
Total: | 176133 | 100.0 |
В редирект через meta refresh мы тоже заглядываем, но в этот раз ничего интересного там не наблюдается. Самый популярный сопособ отправить пользователя на связку эксплойтов.
Все 2670175 доменов, отдавших 200 ОК крутятся на 192213 IP адресах, top 10:
ip | cnt | example_url |
109.206.190.54 | 180983 | http://ksimelin.ru |
188.166.49.110 | 40199 | http://samoobsluga.ru |
81.177.141.15 | 15040 | http://plusheviy-buket.ru |
89.111.167.3 | 11887 | http://ipoezd.ru |
94.76.205.132 | 11774 | http://mediatr.ru |
78.108.80.238 | 10937 | http://bikesurfing.ru |
78.108.86.63 | 10883 | http://asp-v.ru |
185.32.57.224 | 10157 | http://salgroup.ru |
188.120.232.174 | 9431 | http://moscowspa.ru |
199.59.243.120 | 9057 | http://asolutbank.ru |
Вот тут мы встречаем по-настоящему интересных ребят: 180983 домена на ip 109.206.190.54 (6,77% от всех активных) являются зеркалами www.homes.ru (сверяли не только по ip, естественно). С огромным отрывом уходят даже от парковок. Работают с размахом.
Немного средних значений контентной составляющей главных страниц рунета:
Средняя длина тайтла | 47 |
Средняя длина кейвордов | 220 |
Среднее количество слов на странице | 515 |
Средний вес страницы (в октетах) | 42320 |
На 262 доменах в тексте встречается слово ‘хабрахабр'.
user | anchor | cnt |
@WildGreyPlus | WildGreyPlus | 17 |
@DaryaKorsak | DaryaKorsak | 17 |
@ptsecurity | ptsecurity | 17 |
@DenisIzmaylov | DenisIzmaylov | 17 |
@pkruglov | pkruglov | 17 |
@maisvendoo | maisvendoo | 17 |
@alexsoft | alexsoft | 17 |
@SmartEngines | SmartEngines | 17 |
@DrMefistO | DrMefistO | 17 |
@DenisVasilyev | DenisVasilyev | 17 |
@yourdestiny | 4 | |
@anatoly_rr | Хабр | 2 |
@taxi5mblog | 2 | |
@gurylyov | habr | 2 |
@kzotov | Хабрахабр | 1 |
@couragic | couragic | 1 |
@nProfessor | habrahabr.ru | 1 |
@efimich | habrahabr.ru/users/efimich/ | 1 |
@nektodev | 1 | |
@alexchernyy | Habrahabr | 1 |
@ftp27 | 1 | |
@constructive | На Хабре | 1 |
@ilusha_sergeevich | Полезности (от ilusha_sergeevich) | 1 |
@pas | 1 | |
@rock | 1 | |
@payonline | Habrahabr | 1 |
@softlink | Softlink | 1 |
@blv | Борисом Вольфсоном | 1 |
@ilusha_sergeevich | дискуссии в группах, подкасты на тему интернета | 1 |
@teaminds | Habrahabr | 1 |
@nikmelnikov | хабре | 1 |
@jaloveast1k | 1 | |
@Sacret | 1 | |
@bredun | 1 | |
@omegicus | Блог | 1 |
@xnim | 1 | |
@nkochnev | Habrahabr | 1 |
@brntsrs | хабр | 1 |
@splurov | Хабрахабр | 1 |
@batazor | 1 | |
@heath | автор статей на Хабрахабре | 1 |
@kriptomen | Habrahabr (один из…) | 1 |
@sil1999 | 1 | |
@Advertone | Хабрахабр | 1 |
@mwsoft | 1 | |
@superalesha | habrahabr | 1 |
@iserdmi | хабрахабре | 1 |
@cadmy | link | 1 |
@ksdaemon | Хабрахабр | 1 |
@invizory | Habr | 1 |
@yegorf1 | H | 1 |
@zoriko | Zoriko | 1 |
@nickurs | 1 | |
@asommer | 1 | |
@d530 | HABR.RU | 1 |
@polar | Polar | 1 |
@DataArt | Habrahabr | 1 |
@silvansky | silvansky | 1 |
@jokerov | jokerov | 1 |
@grachevamari | grachevamari | 1 |
@andruekonst | Habrahabr | 1 |
@artoodetoo | Habrahabr | 1 |
@ihhabr | Habrahabr | 1 |
@ustas | 1 | |
@alizar | alizar | 1 |
@wilelf | 1 | |
@rebirther23 | 1 | |
@ordos | Хабрахабр | 1 |
@shukshinivan | 1 | |
@falula | falula | 1 |
@Dobrii | habrahabr | 1 |
@denxc | 1 | |
@garstelecom | 1 | |
@shlom | HabrahabrHabrahabr.ru | 1 |
@PavlovM | пишу на хабр | 1 |
@iley | iley | 1 |
@noldo32 | Я на Хабре | 1 |
@valerasergeevich | H | 1 |
@kachkaev | мой аккаунт на Хабрахабре | 1 |
@icw82 | Хабрахабр | 1 |
@skutin | Habrahabr | 1 |
@genixg | 1 | |
@sirus | sirus | 1 |
@codefucker | Хабр | 1 |
@divan0 | divan0 | 1 |
@devpreview | 1 |
Список доменов отдавших 200 OK dataoperator.ru/ru_domains_200_ok.zip
Комментарии (28)
biziwalker
08.01.2016 14:14Извиняюсь за возможно глупый вопрос, но откуда взяты эти 5040277 доменов? Я недавно искал, находил много зональных баз, но они неактуальные
erlyvideo
08.01.2016 23:12как так эти homes сделали столько доменов?
Это же всё таки дорого.pansa
08.01.2016 23:47Оптом дешевле. Да и дорого — это относительно. Для частного лица — возможно, для крупного торгаша недвижкой — не так уж и много. Может есть друзья в регистраторе. Мало ли вариантов.
pansa
09.01.2016 00:15+3Ну, собственно вот.
Сайт homes.ru, http://www.homes.ru/about_company
«Фактический адрес: 105120, г. Москва, 3-й Сыромятнический пер., д. 3/9, стр. 6»
Регистратор домена — http://www.salenames.ru/ru/page/kontakty
«Фактический адрес
105120, г. Москва, 3-й Сыромятнический переулок, дом 3/9, строение 6»
Как говорят некоторые копатели истины — «Совпадение? Не думаю!...» (с) =)pinkerton
09.01.2016 11:43объясните, какая минимальная цена будет для homes, если у них свой регистратор? 0 или есть какой-то минимум?
pansa
09.01.2016 14:32Ник ваш в тему =)
Про цену не знаю, но если это одна контора, то смысла выставлять счет самим себе, думаю, нет.
Сама по себе поддержка записей в dns не особо затратна, если вся инфраструктура уже настроена (регистратор).
Думаю, это чей-то разносторонний бизнес — и регистратор с признаками сквоттинга, и недвижка эта, плюс если покапаться в подсетках AS-ки, на которой они сидят, обнаруживается целая кладезь порнухи ( практически вся 109.206.188.0/23 ). Дальше не копал, но профиль примерно такой вырисовывается.
pansa
09.01.2016 00:00А, так это сквоттеры обычные! Очень похоже (я всё не проверял, конечно), что все остальные «зеркала» — сквоттерские, просто на них заглушка с рекламой этой недвижимости. Для примера — editpost.ru
UserSide
09.01.2016 03:56NOSTALGIE.RU REGRU-RU 04.09.1996 01.10.2016 01.11.2016 1
Самый первый домен в базе, судя по датам регистрации.
Символично.UserSide
09.01.2016 04:00upd: Судя по всему популярное место было (и есть?)
web.archive.org/web/20010202161900/http://www.nostalgie.ru/responses/responses.html
propovednik
09.01.2016 07:15Занимательная статистика. А кто-нибудь видел подобный список доменов для .kz или .by?
pansa
09.01.2016 22:32Для kz не видел, попытки официально получить файлы зон .by приводили к необходимости получения разрешения у местной службы госбезопасности, забыл как их там. В общем, чуть ли не у батьки разрешение нужно получать %)
Еще очень хочется зону UA, но возможность её получения из РФ последние годы резко осложнилась по понятным причинам =(
Если у кого-то есть доступы и желание обмениваться — прошу в приват. com, net, org, info, biz, mobi и другие — есть что предложить.
dlukyanov
09.01.2016 21:59Приоткройте завесу тайны: на чем написан краулер? Как долго обрабатывалось 5М доменов и на каких мощностях?
Еще интересно, сколько доменов вам ответили, что они DNS sinkhole?daocrawler
09.01.2016 23:00-5Приоткройте завесу тайны: на чем написан краулер? Как долго обрабатывалось 5М доменов и на каких мощностях?
В рамках данной статьи раскрытие технических особенностей системы не предполагалось.
Еще интересно, сколько доменов вам ответили, что они DNS sinkhole?
Что вы имеете в виду?dlukyanov
09.01.2016 23:09В рамках данной статьи раскрытие технических особенностей системы не предполагалось.
Жаль, чисто с т.з. статистики ценности в статье как-то маловато.
Что вы имеете в виду?
Это: en.wikipedia.org/wiki/DNS_sinkhole. Обычно такие домены отвечают вам статусом 200, но в заголовках ответа есть что-то типа «X-Sinkhole: Malware sinkhole». Если при сканировании вы не смотрели заголовки, то теперь уже это никак не понять…daocrawler
10.01.2016 00:55Совершенно не обязательно 200 ok.
Пример:
404 Not Found Server=nginx 1.1.19 Date=Fri, 01 Jan 2016 12:37:16 GMT X-Malware-Sinkhole=Arbor Networks Connection=close content-length=0
Доменов, с заголовком Sinkhole = 32.dlukyanov
10.01.2016 22:43Совершенно не обязательно 200 ok.
Ну да, я поэтому и написал «обычно»…
Доменов, с заголовком Sinkhole = 32.
Спасибо! Я думал их будет гораздо больше.
rhamdeew
11.01.2016 12:54Довольно интересный пост. Спасибо!
Особенно полезно было узнать где брать список всех рушек.
Вообще такие посты с перебором всех доменных имен или ip не дают забыть об элементарной безопасности. А то есть товарищи которые оставляют некоторые сервисы в открытом виде мотивируя это тем что «никто же не знает этот адрес кроме меня»
askbow
А сколько ещё сайтов на username.domain.ru или даже domain.ru/~username!
Не знаете, что за данные отдают те 32 сайта, что попали в исключение CLEX?
daocrawler
В основном это сайты, скрипты которых генерируют дикое количество ошибок, пример: itect.ru
askbow
Спасибо! Я думал, может там поток каких-то полезных данных)
N.B. любопытство сгубило кошку; было ошибкой открыть указанный вами сайт: тор-браузер завис через пару секунд. И ещё WOT говорит о дурной репутации ресурса.
ivan386
Это можно уже не считать. Зарегистрировав домен второго уровня автоматом получаешь возможность использовать и третий и четвёртый и т.д. Я на одном сайте использую их для разделов. Наклепать большое количество ничего не стоит. Также делаю редирект со всех доменов третьего уровня на главную. Но правда последний раз когда купил дешовый хостинг у этой компании там эту возможность попортили.