Здравствуйте!

Мы постоянно сканируем интернет и стараемся выкладывать полезные датасеты. Сегодня публикуем список доменов, из списка топ 1,000,000 Alexa, на главной странице которых было найдено упоминание слова «porn». Обновляться данный список будет ежедневно, примерно в 22:00 по МСК.

Страница датасета
Формат: domain,ip,title,description,cnt(количество упоминаний)

Визуализация датасета будет доступна всегда за самую свежую дату (дождитесь загрузки, в таблице 30к строк).



Предлагаем использовать список в разных (полезных) целях. Исследований или родительского контроля, например.

Комментарии (14)


  1. den_golub
    05.09.2017 22:32
    +2

    Предлагаем использовать список в разных (полезных) целях. Исследований или родительского контроля, например.


    Дааа, именно так его буду использовать, особенно те кто наткнется на него в поисковой выдаче.


    1. Pochemuk
      06.09.2017 00:06
      +2

      Из кирпичей можно строить дома. А можно кирпичом и в лоб засветить…

      На самом деле, польза от списка есть. А любители клубнички такую найдут и без всякого списка.
      Кроме того… использовать его для поиска не слишком удобно. Особенно, для поиска определенных тематических ресурсов. А для блокировки — самое оно.

      К сожалению, 1000000 URL и IP в черный список Traffic Inspector не запихнешь. Там линейная организация такого списка. А для таких объемов надо бы страничную…


      1. daocrawler Автор
        06.09.2017 00:10

        В списке всего 30к доменов с упоминанием (из миллиона самых популярных сайтов мира), откройте визуализацию


        1. Pochemuk
          06.09.2017 00:28

          А я так понял, что это список топ 1000000, содержащих слово, которое произносить нельзя :)

          Все равно много. Правда, TI позволяет указывать URL по шаблонам, напоминающим регулярные выражения PCRE.


          1. gnomeby
            06.09.2017 09:01

            А есть полезные сайты, где буквы porn затесались случайно?


            1. skymal4ik
              06.09.2017 09:20

              На ум приходит geekporn, например)


            1. Doomsday_nxt
              06.09.2017 15:07

              Какой-нибудь RuporNews


  1. VioletGiraffe
    06.09.2017 11:17

    Мы постоянно сканируем интернет и стараемся выкладывать полезные датасеты.

    Ну наконец-то, что-то полезное!


  1. unwrecker
    06.09.2017 12:01
    +1

    Шо, опять?! (с)
    В начала 2000-х было модно настраивать ACL по ключевым словам в URLе, вследствие чего появилась куча вполне приличных, но криво (либо вовсе не) открывающихся сайтов, из-за того, что URL элементов в них имел неосторожность содержать подстроки sex, xxx, teen, porn и т.п. — достаточно короткие чтоб быть частью других слов или служебной информации.

    А уж слово porn на странице может быть по куче причин не связанных с тем, что это порносайт.

    Так то пользуйтесь этим списком только по прямому назначению :), и не вздумайте использовать в фильтрах.


    1. daocrawler Автор
      06.09.2017 12:07

      Попробуйте составить свою регулярку https://saas.statoperator.com/monitoring-invitation


    1. Pochemuk
      06.09.2017 12:48

      Ну да… Помню, после блокировки по слову «ass» перестала открываться страничка pASSport.yandex.ru. Не говоря уже об Одноклассниках…

      Со словом «sex» было гораздо проще: достаточно было запрещать это слово в URL только непосредственно до или после разделителя — точки, дефиса, подчеркивания. Или в начале адреса.


      1. unwrecker
        07.09.2017 09:40

        А вот и историческая запись про sex: www.artlebedev.ru/news/2001/algrelease_292.html


  1. Pochemuk
    06.09.2017 13:10

    Хм… нашел в списке сайт kbaus.com. Название не показалось мне предосудительным. Решил зайти и проверить.

    Никакой порнухи там не оказалось. Только ссылка на статью про порнографию в Интернете :D


  1. Pochemuk
    06.09.2017 13:26
    +2

    А на сайте www.bivs.cz есть слово «nespornou» — бесспорно.

    Хотя, это слово и по русски пишется как-то стрёмно :D