При поиске свободного имена в зоне .com меня неприятно удивило количество уже занятых, но неиспользуемых доменов. Судя по всему, зарегистрированы все произносимые комбинации букв на всех основных языках мира. И даже непроизносимые короткие комбинации. То ли существует большой рынок доменов, то ли мне просто на ум приходят те же имена, что и всем остальным? Посмотрим на голую статистику…

В настоящее время зарегистрировано 137 миллионов доменных имён .com. По данным Verisign, в «активной зоне» по состоянию на 27.01.2019 года есть 137 756 106 доменов .com. Перед этим я сверил корректность цифры с файлом DNS-зоны.

Из них используется около трети (предприятия, личные веб-сайты, электронная почта и т. д.). Ещё треть, по-видимому, не используется, а последняя треть используется в различных спекулятивных целях.

Вот как используются домены (на выборке из 2188 штук):



Как я получил эти цифры


Я начал краулинг со случайной выборки доменов верхнего уровня из DNS-файла зоны (файл скачан 21.01.2019, а краулинг продолжался до 23.01.2019), пока не достиг 100 000 валидных доменов (не все записи там валидные, некоторые выполняют роль ханипотов для ловли людей, которые нелегально распространяют файлы зоны, а примерно 1% являются нейм-серверами; после их исключения осталось 98 854 валидных доменов).

Для каждого домена я собрал следующее:

  • запись WHOIS;
  • все DNS-записи для доменов верхнего уровня и поддоменов www (DNS-запросом ANY напрямую к нейм-серверам, указанным в WHOIS-записи);
  • ответы HTTP и HTTPS (код состояния, заголовки и тела) для главной страницы домена верхнего уровня и поддомена www (невалидные SSL-сертификаты относили домен в категорию Error);
  • скриншот главной страницы в Mozilla Firefox 64.0 под Linux.

Сканирование заняло чуть более 48 часов с одного сервера в сингапурском дата-центре. Затем я запустил второй этап краулинга для всех доменов, которые не смогли подключиться по HTTP или HTTPS (в случае временных ошибок). И, наконец, для 2188 доменов из выборки я вручную проверил все ошибки на случай, если краулер вышел по таймауту или события DOM оказались заблокированы в JavaScript.

Затем я написал вспомогательный скрипт для ускорения ручной классификации сайтов на основе их скриншота и содержимого.


Скрипт представляет возможные категории в виде списка кнопок с содержимым по умолчанию

С помощью этого скрипта я выполнил категоризацию сайтов за два дня. Не все сайты пришлось различать вручную: в некоторых случаях категория была очевидной по полю <title>, так что я применил регулярные выражения. В других случаях скриншота оказалось недостаточно, поэтому пришлось вручную открывать домен в браузере для проверки.

Сводная статистика и выводы


Топ-10 регистраторов .com из выборки в 100 000 доменов




  • GoDaddy зарегистрировал треть всех доменных имён. Это примерно 45 миллионов доменов. Из них на каждом третьем парковочные страницы. Иными словами, более 10% всех доменов .com в интернете размещают объявления GoDaddy.
  • Хотя в выборке 1851 регистратор, они управляются небольшим числом операторов. Например, только DropCatch.com контролирует более тысячи регистраторов: DropCatch.com 1000 LLC, DropCatch.com 1001 LLC, DropCatch.com 1002 и так далее; аналогичные схемы с номерами используют и другие регистраторы, но у некоторых не столь очевидные схемы.
  • За последний год зарегистрировано 25% доменов.

Возраст доменов из выборки в 100 000 штук (в годах)




Категории доменов


Список категорий дополнялся по мере работы. Например, я не ожидал большого количества доменов для азартных игр (под алиасами).

Для большинства категорий приводится случайная выборка скриншотов.

Контент (31% или ~43 млн)


Контент — домен с любым уникальным контентом. Это категория по умолчанию, куда я помещал любые сайты в случае сомнений.



Реклама (23% или ~31 млн)


Обратите внимание, что половина доменов в этой категории — страницы паркинга GoDaddy, на которых GoDaddy размещает объявления Google по ключевым словам, связанным с доменным именем.



Нет веб-сервера (11% или ~16 млн)


Если мне не удалось подключиться или получить валидный ответ по порту 80 или 443 для домена верхнего уровня или субдомена www, при этом у домена нет MX-записи, я помещал его в эту категорию. Некоторые из этих доменов, вероятно, используются как-то иначе, например, как FTP или игровые сервера, но мне кажется, таких меньшинство. Ещё сюда попали любые сайты на IPv6, потому что сервер краулера был настроен только для IPv4.

Пусто (9,2% или ~13 млн)


Пустой домен — тот, для которого веб-сервер отвечает на запросы, но возвращает пустые страницы, ошибки 404 или незаполненные шаблоны (например, установки WordPress по умолчанию).

Разница между пустым и припаркованным доменом заключается в том, что пустой домен предположительно настроен пользователем, но содержимое ещё не добавлено.



На продажу (7,1% или ~9,8 млн)


Многие домены выставляются на продажу через различных брокеров и торговые площадки. Почти половину из них, похоже, продаёт HugeDomains, хотя на их веб-сайте говорится лишь о «более 200 000» доменах, доступных для покупки. Я учитывал только домены от известных площадок или когда контактные данные не включались в состав рекламного объявления, потому что рекламные сети и брокеры часто врут, что представляют владельца домена (вместо этого я классифицировал все такие домены как объявления).



Ошибка (5,7% или ~7,9 млн)


Если домен возвращал ошибку любого типа, будь то ошибка HTTP или ошибка на странице, я относил его к этой категории.

Обратите внимание, что сюда могли случайно попасть некоторые приватные домены, если они использовали обычную аутентификацию, поскольку я не отличал 403 Forbidden (из-за отсутствия базовых учётных данных для аутентификации) от других ошибок.



Запаркован (4,8% или ~6,5 млн)


Запаркованные домены отображают страницу регистратора или сообщают, что домен ещё не настроен. Чтобы попасть в эту категорию, домен должен выдавать страницу без внешней рекламы. Он может рекламировать собственные услуги, но не может размещать объявления из рекламной сети.



Азартные игры (3,0% или ~4 млн)


Почти все сайты этой категории на китайском языке и работают под алиасами: часто это короткие строки цифр или согласных (например, 17770012 или tdwhtr). Они следуют общим шаблонам и содержат похожие изображения, часто с автоматически генерируемыми логотипами. Я предполагаю, что их цель — привлечь людей на удачу.



Почта (2,6% или ~3,5 млн)


Если домен не попадал ни в какую категорию, но у него есть MX-запись в DNS (для email), я относил его в категорию «Почта». Не проверял, работает ли почтовый сервер или доставка. Вполне возможно, что многие из этих доменов не используются для электронной почты.

Редирект (1,1% или ~1,6 млн)


Сюда отнесены «домены тщеславия», которые отсылают на страницы Facebook, альтернативные названия компаний и т. д.

Приватный (0,64% или ~0,9 млн)


Это сайты, на которых никакой контент не доступен без авторизации (или, в некоторых случаях, регистрации).



Порно (0,59% или ~0,8 млн)


Как и игорные сайты, многие порносайты работает под разными алиасами. Веб-сайты преимущественно на китайском языке, и домены следуют аналогичным шаблонам именования. Поскольку многие сайты отображают порнографический материал напрямую (без предупреждения), я не делал скриншоты.

Комментарии (29)


  1. Eagle_NN
    17.02.2019 19:55
    +1

    Достаточно существенное количество доменных имен используется для сервисов отличных от HTTP. Это распространенная практика. Судя по вашей выборке это, примерно, 25% от всех доменных имен.
    Итого выборка разделяется на
    31% Используется под HTTP
    25% Используется под другие нужды
    23% ADS
    менее 5% (по общей сумме 21%) — Остальное (запарковано, на продажу, порно и прочее)


    1. tyomitch
      17.02.2019 21:43
      +2

      Откуда вы взяли число 25%?


      1. Eagle_NN
        18.02.2019 00:51

        Сложил «без веб сервера», пыстые и ошибки. Автор только http проверял же, без проверка ошибок авторизации


        1. tyomitch
          18.02.2019 10:42
          +2

          По-вашему, любой домен, на котором нет веб-сайта, используется для чего-то отличного от HTTP?


          1. Eagle_NN
            18.02.2019 11:52

            По моему опыту — да. Крайне малая часть устройств, тем более с доменом .com, смотрят в WEB и не несут на себе никакой функциональности. Часто это RDP, или камеры, или SSH или что-то еще.


            1. tyomitch
              18.02.2019 13:40

              Значит, мой опыт очень сильно отличается от вашего, потому что домены для одноразовых промо-кампаний — действующие месяц, но зарегистрированные как минимум на год — я видел сплошь и рядом.


  1. SibDrow
    17.02.2019 20:59
    -4

    В этом нет ничего необычного, рынок продажи доменов это целая индустрия, хочешь что-то хорошо читаемое и короткое в зоне .com покупай у спекулянтов, хочешь дешево то зона .xyz вас ждет. :)
    Вы проделали интересный, но абсолютно бесполезный труд.

    p.s. Статистику по доменам, еще тут можно посмотреть webhosting.info или нагуглить еще.


  1. Leon_aka_KoHb
    18.02.2019 00:47
    +3

    Как все таки мало порно в сети, вопреки расхожему мнению.


    1. Kirhgoff
      18.02.2019 05:01

      Обычно когда говорят про большое количество порно в интернете, имеют в виду количество трафика а не количество доменных имен. Если даже посмотреть на больших игроков, то можно увидеть что они все используют контент друг друга. Хотя было бы интересно увидеть реальную статистику.


      1. iago
        18.02.2019 16:47
        +1

        Просто посмотреть, одним глазков, абстрактного интереса ради :)


    1. tyomitch
      18.02.2019 10:40

      В статье речь не о порносайтах, а об автоматически генерируемых «порнозаглушках» на неиспользуемых доменах.


      1. NetBUG
        18.02.2019 12:24

        Для обхода блокировок по чёрным спискам, например :)


  1. mindcaster
    18.02.2019 01:09
    +2

    некоторые выполняют роль ханипотов для ловли людей, которые нелегально распространяют файлы зоны

    Извините, я не в теме. Можно разъяснить?


    1. skvoo
      18.02.2019 06:18

      1. RiseOfDeath
        18.02.2019 10:52

        Про ханипот понятно. Что такое «файлы зоны»? И как этот ханипот помогает определять что человек их распространяет?


        1. Evengard
          18.02.2019 11:02

          А ещё что такого «нелегального» в распространении файлов зоны?


  1. your_eyes_lie
    18.02.2019 01:35
    +1

    некоторые выполняют роль ханипотов для ловли людей, которые нелегально распространяют файлы зоны
    А где можно про это подробнее почитать?


    1. Destructive
      18.02.2019 07:00
      -1

      1. your_eyes_lie
        18.02.2019 07:17

        Что такое ханипот понятно, вопрос про детект людей, «которые нелегально распространяют файлы зоны» — собственно, как ловят именно тех, кто распространяет? Или имеется в виду ханипот на случайно созданном домене, который нигде не светится и логирует dns-запросы (и правильнее было бы «ловли людей, которые собирают»)?
        Как автор отличал ханипоты от доменов, которые просто не используются или не имеют веб-сервера?


  1. vxdv
    18.02.2019 07:16

    Как по мне, статья информативная и отражает реальное положение вещей. Ради интереса зайдите на sedo.com и посмотрите какое реально огромное кол-во доменов там продается. Действительно хоть что-то маломальски читабельное из .com будет в продаже. Интересно было бы узнать распределение по используемости у .info и .biz Почему-то мне кажется, что там спекулянтов не меньше :)


  1. Kocmohabt314
    18.02.2019 09:12

    Эх, так хотелось почитать про восстановление автобуса из The Bus Blog

    c этой картинки
    image


  1. EvgeniyNuAfanasievich
    18.02.2019 11:21

    Судя по всему, зарегистрированы все произносимые комбинации букв на всех основных языках мира

    а у этого дела была какая-то ограниченная длина домена? А то если фразы я даже не представлю сколько это в цифрах.


    1. tyomitch
      18.02.2019 11:29

      Ограничение протокола DNS — 253 символа.


      1. Doomsday_nxt
        19.02.2019 18:45
        +1

        63 символа для домена


  1. capslocky
    18.02.2019 11:55

    Что интересно Verisign на указанном сайте дает при запросе доступ к списку second-level domain только на 2 tld: .com и .name, а для других tld официально список можно получить только у ICANN. В зоне .ru более 5 миллионов доменов, какие интересно есть способы получить этот список.


  1. kalashnikovisme
    18.02.2019 17:24

    В статье указано, что игорные и порно заглушки в большинстве своём на китайском языке. Я правильно понимаю, что это связано с тем, что краулинг проходил из сингапурского дата-центра?


    1. tyomitch
      18.02.2019 17:35

      Вряд ли. Скорее, это связано с тем, что китайцам сложно монетизировать интернет-рекламу, тогда как казино и порно монетизировать проще.


    1. Silverado
      18.02.2019 18:47

      Это что-то связанное с методикой, возможно. Тот же bet365 у автора на скриншоте на китайском, хотя, насколько я помню, он ни разу не китайский, как минимум лицензия на сайте указана мальтийская.


      1. tyomitch
        18.02.2019 19:07

        Гадать тут не о чем: откройте адрес со скриншота 50365.com, и вы увидите там bet365 на китайском.