Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.


Из открытых источников был получен список ссылок, находящихся в реестре на момент проведения исследования. Всего в списке 24515 ссылок.

По каждому url мы делали get-запрос из страны, не имеющей законодательных ограничений на подобные деяния.

Ответы серверов распределились следующим образом:



Большинство сайтов вполне себе функционируют и переоценивать собственные взгляды на жизнь не собираются. Многие используют фаерволы, отсекая потенциально опасных (по их мнению) посетителей. Значительное количество просто ставит редирект на свежий белый домен.

Пара слов об «абузоустойчивости». Взглянем на распределение по tld (только 200 OK):



Не менее интересно распределение по странам, в которых физически находятся заблокированные ресурсы:





Скачать полный частотный словарь (436898 элементов)

Статья не направлена на пропаганду чего-либо, а лишь отражает существующую реальность. Полученный материал, возможно, окажется полезным кому-либо для проведения собственных исследований.

Комментарии (30)


  1. Ayahuaska
    29.03.2016 19:49

    Ну то есть, блокировать сильно выгоднее, чем пресекать деятельность другими, более действенными, способами. ЧТД.


  1. summeroff
    29.03.2016 20:05
    +2

    Судя по тому что слова "соль" и "соли" присутствуют на первой картинке словоформы не объединялись?
    Что означает gtgt?
    В каком контексте слово "доска" используется так часто на запрещенных сайтах?


    1. daocrawler
      29.03.2016 20:39

      Стемминг не делался.
      Контекст gtgt:

      bigger boobs gtgt
      biggest thing gtgt
      bioshock gifs gtgt

      Контекст доски:
      board доска опознаний
      dating доска объявлений
      надежный поставщик доска


    1. GeMir
      29.03.2016 20:40
      +1

      gtgt — «Got to go to» Urbandictionary.com


  1. ComodoHacker
    29.03.2016 20:25

    Что кодирует цвет на первой диаграмме?


    1. daocrawler
      29.03.2016 20:44

      Смещается по радуге от большего(фиолетовый) значения частоты употребления к меньшему(синий), аналогично размеру блоков.


      1. ruikarikun
        29.03.2016 21:11

        А почему некоторые прямоугольники пустые? В правой части картинки.


        1. daocrawler
          29.03.2016 21:15

          Слова в них просто не влезли. Это Tableau.


  1. daocrawler
    29.03.2016 22:27
    +3

    Не удержался, посмотрел контекст "израиля", все-таки популярная тема, входит в топ-100. Вот что там происходит:

    сверхдержавы вотчины израиля
    светозарным сынам израиля
    святости величию израиля
    святые земли израиля
    севере израиля так
    силу сыны израиля


  1. dm9
    29.03.2016 23:07
    +3

    Распределение по странам не интересное. Это просто страны, в которых преставлен дешевый хостинг, часто с русской поддержкой.


    1. daocrawler
      29.03.2016 23:13

      Есть некоторые сомнения. Наркоту хостить — не от правообладателей бегать.


    1. Kju
      30.03.2016 14:52
      +1

      Мне кажется, хостить магазин по продаже наркотиков в США или Германии не самая удачная идея.
      Ну и к примеру Япония с 772 сайтами немного удивительно


      1. zoonman
        30.03.2016 18:00

        Это скорее всего CDN вроде Cloudflare или сервисы наподобие AWS.


  1. shara
    30.03.2016 04:57
    +1

    Великолепно. А теперь то же самое для образовательных учреждений. Правда дамп старый.


    1. daocrawler
      30.03.2016 05:35

      Интересный список. 16 миллионов можно обойти довольно оперативно. По возможности стараемся оказывать помощь людям, занимающимся исследованиями в образовательных/общественно полезных целях. Если вам требуется решить конкретную задачу — пишите в личку.


      1. shara
        30.03.2016 16:12

        Нет, задачи нет, простое любопытство


  1. Xazzzi
    30.03.2016 12:14

    46 доменов в зоне .ua должны бы иметь подтвержденных владельцев соответствующих торговых марок.
    Если на этих 46 сайтах что-то достойное внесения в реестр, то найти виновника — не сверхзадача же.


    1. Lointc
      30.03.2016 14:57

      Для доменов второго уровня в зоне .ua торговая марка не нужна.


      1. Xazzzi
        30.03.2016 17:54

        Пункт 3.2, хотя может быть отменили уже, я слышал о чём-то подобном.
        Или если вы под 2м уровнем понимаете различные .*.ua тогда всё верно, но в статье .com.ua к примеру указан отдельным пунктом.


        1. Lointc
          31.03.2016 12:52

          Не заметил, прошу прощения. Для доменов .ua торговая марка нужна по-прежнему.


  1. forgotten
    30.03.2016 12:16
    +4

    Таки не могу удержаться, простите.
    Это что же получается, не навального блокируют с лурочкой, а самых что ни на есть наркобарыг, детское порно и юдофобскую пропаганду? Как же так!


  1. bonv
    30.03.2016 14:57

    А для какой задачи корпус создавали?


  1. Staruy
    30.03.2016 15:00

    Скажите, столкнулись ли Вы с проблемой «странных» символов в URL? На чем парсили?


    1. daocrawler
      30.03.2016 16:27

      Что вы понимаете под «странными» символами? Покажите пример. Робот/парсер — всё своё.


      1. Staruy
        30.03.2016 16:38

        Заменил домен на другой, дабы не публиковать запрещенной ссылки, например такая
        "http://site.com/6175/%E6%84%9B%E3%81%A1%E3%82%83%E3%82%93%E3%81%A8%E3%83%94%E3%83%B3%E3%82%AF%E3%83%AB%E3%83%BC%E3%83%A02%20a04-3%20(riding).swf.html"
        Можете в дампе посмотреть примеры по следующим id: 111882, 110894
        Так же прохожусь по дампу питоновским скриптом, с некоторыми ссылками есть проблемы.


        1. daocrawler
          30.03.2016 16:48

          Парсер хабра подсказывает отличное решение.


          1. Staruy
            30.03.2016 16:53

            Это я изначально такую ссылку скинул, она так в дампе указана, в браузере это будет
            http://site.com/6175/???????????2 a04-3 (riding).swf.html
            Встречаются много других интересных сочетаний символов "|" и т.д. При работе многих библиотек питона на этом вываливается ошибка:
            UnicodeEncodeError: 'ascii' codec can't encode character…
            Потому и спросил чем Вы парсили, может каким то образом кодировали ссылки.
            У меня итогом ошибок стало 404, хотя оригинальная ссылка жива.


            1. python273
              30.03.2016 17:23

              Используйте python3, там все строки в utf-8


              1. Staruy
                30.03.2016 18:53

                к сожалению на сервере стоит 2 версия и скрипт может мигрировать на другие сервера, а ради него подготавливать окружение никто не будет


          1. Staruy
            30.03.2016 16:57

            Продублировал, парсер съел пару символов:
            http://pastebin.com/sF1WTzME