Вся история началась с достаточно бурного обсуждения процентного соотношения порно vs. всё остальное. Дискуссия плавно переросла в тотализатор. Кто называет цифру ближе всего к «реальной», тот и в дамках. Ставки сделаны, ставок больше нет.

Как и где?


Оставалось выяснить «реальный» показатель. Заранее были определены критерии и выборка, в рамках которой требовалось провести исследование. Достаточным критерием, по мнению большинства участников специальной олимпиады, явилась простая регулярка на слово porn в контенте + несколько едких словечек (все мы их знаем). Выборкой взяли топ 1,000,000. Несмотря на то, что доменов в интернете ~400кк, Алекса довольно чётко выделяет тех, у кого есть хоть какой-нибудь трафик.

Зарядили краулер, понеслась. Замечу, что участники тотализатора гуглить не пытались, основания не доверять кому-либо нет, тема деликатная, да и, правда, интересно же, сколько? А может оно того, его всё меньше и пора качать?

Всех уделал сишник


Он со ставкой в 2,9% оказался ближе всех к полученным значениям. Мы нашли 26044 порника (2,6%) из миллиона топовых доменов (на 04.07.2016). Признаться, цифра многих удивила, разбег в предсказаниях был не малый, верхнюю планку давали на уровне 35%. Полезли гуглить, нашли статью с исследованием от Forbes за 2011 год, с цифрой в ~4%, что косвенно подтвердило адекватность полученных результатов. Но, неужели падает?

Динамика


Подошли ответственно, держали регулярку почти 3 месяца, следили за динамикой. Пока следили, спалили падение крупной сетки (кто-то жёстко заабузил хостера). Падение вы можете заметить на графике 4 августа, ~2000 сайтов ушло в даун, но уже 5 числа ребята восстановились и продолжают доставлять контент по сей день, без единого разрыва. Порносайты стабильно отжирают свою долю: за 3 месяца с 2,6% по 3,3% (33147)

Что там Роскомнадзор?


Как раз под завершение нашего исследования поднялся хайп вокруг адалт контента, заводилой которого явился всеми любимый Роскомнадзор, поблокировавший особенно популярные сайты.

Джойним базу заблокированных сайтов (спасибо Роскомсвободе) на полученный нами список порников, получаем 626 доменов. Это 1,88% от всех сайтов, которые мы определили как грязные, развратные.

Хочется понять, какую долю контента блочит государство не по количеству доменов, а по их значимости. Вдруг все эти 626 доменов агрегируют 90% трафика и пользователи вынуждены искать замену среди менее качественных продуктов. Данных по трафику у нас нет, но есть рейтинг Алексы, где:

1. Google


999999. Qoranona.com (цитирую: «Сладкая жизнь слушаться Бога», всё на арабском, выручил гугл-переводчик).

Забавное совпадение, топ 1, никак не связанный с религией, помогает доносить информацию религиозному сайту с последнего места в массы. Если что, я не пытаюсь оскорбить чувства верующих, я о технологиях фактами. Является ли этот сайт экстремистским определить возможности не имею, так что заходить на него никому не советую (на всякий случай).

Так вот, о рейтинге


Чтобы приблизительно оценить долю трафика сайтов, которые поблочил Роскомнадзор, раздадим им веса. Для простоты подсчета отнимем у всего списка от значения рейтинга 1,000,000 и возьмем по модулю, т.е.:

Google, как самый посещаемый сайт нам даёт 999999 очков на барабане, а Qoranona.com — всего 1.

Общую сумму весов для списка считаем как сумму натурального ряда, она у нас = 500000500000

Сумма весов сайтов (33147 домена на последний день скана), которые мы определили как порники = 18096750838 (3,6% от суммы всего списка, при 3,3% по количеству занимаемых доменов)

Сумма весов 626 доменов, которые были заблокированы = 460251373, что составляет 2,54% от общей суммы весов порносайтов (при 1,88% по количеству доменов). Думаем, что можно считать эту цифру за показатель эффективности истребления государством контента для взрослых на данный момент.

UPD: интерактивный график для удобства просмотра выложили здесь
Поделиться с друзьями
-->

Комментарии (48)


  1. azsx
    08.10.2016 20:27
    +1

    Так с чем это связано? Может адалт сайты умело прячут посещаемость от alexa или в адалт теме сложилась ситуация, как в социальных сетях (есть несколько гигантов и местечковые форумы с функциями соц. сетей)?


    1. daocrawler
      08.10.2016 20:53

      Алекса берет данные о посещаемости со своего тулбара, в основном. Люди ходят на сайты — тулбар отсылает стату, никакой магии. В миллион залететь достаточно просто, если у вас есть человек 50 в день — вы уже там. Такова реальность, Адалт контента не так много, как кажется. Думаю, если навести еще и контент аналитику хотя бы по описаниям роликов — то схлопнется еще больше.


  1. deniskreshikhin
    08.10.2016 20:48
    +11

    Если бы Роскомнадзора не существовало, то его следовало бы выдумать.

    Разве это не прекрасно:


    https://metrics.torproject.org/userstats-relay-country.html?start=2012-07-10&end=2016-10-08&country=ru&events=off


    1. botaniQQQ
      09.10.2016 00:35
      +5

      Скачки:
      1 августа 2013 — РосКомНадзор обладает правом блокировать любой сайт в интернете;
      1 мая 2014 — вступили в силу первые поправки;
      ноябрь-декабрь 2015 — RuTracker и остальные сайты проводят плановые учения;
      январь 2016 — RuTracker заблокирован.


      1. Stiver
        09.10.2016 12:00
        +1

        Первый скачок — это сентябрь 2013, учения на Флибусте.


  1. Barafu
    08.10.2016 20:53
    +9

    Ну а список-то дайте. Ну чтобы я сам проверил.


    1. daocrawler
      08.10.2016 21:18
      +24

      Мне не позволяет законодательство публиковать этот список. Хорошо, что какие-то хакеры опубликовали его в формате domain,rank,ip,country


      1. Barafu
        08.10.2016 21:26
        +1

        Вах, какой хороший он человек. Имею одно забавное предположение, сейчас навострю crawl-бота, проверю.


      1. Jogger
        08.10.2016 23:05
        +2

        как-то не очень показательно. два самых рейтинговых сайта — reddit и
        imgur. Хотя на них наверняка есть порно-контент я бы не назвал их порносайтами в полном смысле этого слова…


      1. mxms
        09.10.2016 00:57
        +1

        japancar.ru? вот уж истинная порнуха! :-D


    1. datacompboy
      08.10.2016 23:59
      +1

      tblop.com недостаточно?


  1. AntiForeZz
    08.10.2016 21:19
    +29

    Пользуясь случаем хочу попросить у роскомнадзора: можно ли на сайте reestr.rublacklist.net сделать разделение на категории, ибо искать нужные сайты не очень удобно, добавить краткое описание к блокируемому сайту (потому что название домена не всегда информативное), и добавить прямые линки, в конце концов.


    1. mxms
      08.10.2016 21:50
      +13

      Полностью поддерживаю. Это будет каталог по-настоящему интересных сайтов, которые следует обязательно посетить!


    1. vc54
      09.10.2016 06:07

      Похоже будет многомиллионный тендер)))


    1. Melanxolik
      09.10.2016 10:33
      +5

      А возможность лайкать и комментарии пользователей вам не интересны?


    1. vabolshakov
      09.10.2016 16:48
      +1

      может какой-нить плагин для браузера написать, чтобы хотя бы прямые ссылки были?


      1. Toxoed
        10.10.2016 01:01

        Array.prototype.slice.call(document.querySelectorAll('a')).filter(link => link.innerText.startsWith('http')).map(link => link.href = link.innerText)
        


  1. DrPass
    08.10.2016 21:24
    +4

    > Думаем, что можно считать эту цифру за показатель эффективности истребления государством
    > контента для взрослых на данный момент.
    А скоро на подготовке госбюджета на очередной год руководство Роскомнадзора будет говорить: «Мы с нынешними ресурсами в состоянии заблокировать лишь 2.54% порносайтов. Требуем увеличения бюджета нашей конторы в 40 раз!»


  1. Nulliusinverba
    08.10.2016 22:24

    взываю к Temych


  1. Nulliusinverba
    08.10.2016 22:30
    +1

    пардон, не в ту ветку, это был ответ AntiForeZz


  1. pewpew
    08.10.2016 22:38
    +3

    А разве они не с террористами и педофилами боролись? Или они порносайты за экстремизм банят?


    1. areht
      08.10.2016 23:11
      +8

      террористы смотрят порн


    1. JediPhilosopher
      09.10.2016 01:22

      Распространение любого порно в РФ вне закона, даже обычного. Просто всем как всегда пофиг было до недавнего времени.


      1. deniskreshikhin
        09.10.2016 02:23

        Нельзя сказать что запрещено совсем. Запрещено незаконное порно.

        Некоторые порнофильмы все-таки есть в списке минкульта и имеют прокатное удостоверение, в том числе произведенные в РФ. Но не понятно кто выдает разрешения на съемку этих фильмов, а так же как они попадают туда.


        1. Ravebinovich
          09.10.2016 10:31

          Т.е. какой-нибудь кинотеатр может купить лицензию на прокат и запустить на большом экране клубничку?


          1. vsb
            09.10.2016 10:36
            +1

            Если обеспечит присутствие 18+, по идее может, почему нет. Вроде даже на кабельных каналах крутят клубничку.

            Всё дело в денежках. Очевидно, что запрет конкурентов продавили те, кто на этом делают денежки в России. Отрежут людей от интернет-порно и будут им продавать кабельное или на сертифицированных сайтах с входом через ЭЦП (и логгированием в досье, на всякий случай).


    1. AAT666
      09.10.2016 10:31

      ...#РКН очень любит повторять, что они всего лишь — исполнительный орган. И, якобы, сами по своей воле ничего не могут заблокировать. Только по решению суда. Будет решение — и они «заблокируют» хоть CNN, хоть National Geographic.


  1. rPman
    08.10.2016 22:50

    Почему вы складываете рейтинг? О_о
    Вы лучшем случае его можно перемножать (проценты от максимума) и всеравно получится каша из смыслов.


    1. daocrawler
      08.10.2016 23:13

      Давайте я объясню.

      У вас есть некоторое количество сущностей, равномерно распределенных в зависимости от количества трафика на них, с порядковым номером от 1 до 1,000,000. Чем меньше значение, тем больше трафика. Действительно, в таком случае нет смысла складывать рейтинг, поэтому мы «переворачиваем» список отнимая от значения рейтинга 1,000,000 (по количеству сущностей), получаем отрицательное значение, которое по модулю будет соответствовать уже весу рейтинга (с небольшим сдвигом на единичку у сайта с последнего миллионного места, у него будет 0), итого получаем тот же список доменов в том же порядке, но со значением, которое можно складывать, т.к. оно уже спускается со 999999 (гугл со своим первым местом) до 0 для сайта на последнем месте из миллиона.

      Если же вы имели в виду подсчет общей суммы рейтинга, то её все-равно как считать, у вас в любом случае натуральный ряд.


      1. LoadRunner
        09.10.2016 00:07

        Эти подсчёты имеют смысл при равномерном распределении трафика.
        А если, к примеру, у Гугла посещаемость в 8 миллиардов уникальных посетителей в сутки, а у второго места миллион и далее по списку на одного посетителя меньше — тут уже нет равномерного распределения.


        1. BkmzSpb
          09.10.2016 14:31

          Присоединяюсь, если я правильно понял, то вес поределяется примерно как 1 000 000 — rating, который дает 999 999 гуглу и 1 тому подозрительному сайту на последнем месте. По факту это линейная зависимость и выглядит это мягко говоря неправдоподобно. Гораздо логичнее было бы задать веса экспоненциальной функцией, можно отнормировать на гугл так что p(Google) = 1. Остается прикинуть, на сколько порядков меньше трафик последнего сайта по отношению к гуглу — и вуаля, веса построены. Не факт правда, что исправление весов сильно поменяет картину, может быть разнциа будет в 2-4 раза больше/меньше суммарного трафика, чем заявлено в статье, но сути это не поменяет.

          P.S.: я имею ввиду функцию типа exp(ax + b), a < 0, x = pos in rating. Для определения a и b достаточно двух значений трафика (при условии, что распределение трафика действительно экспоненциальное).


          1. daocrawler
            09.10.2016 14:35

            Какая разница, у вас все-равно нет ничего кроме рейтинга. Вес мы раздаем только для того, чтобы можно было работать с «суммой рейтинга» группы сайтов. Эта сумма дает значения только в рамках рейтинга Алексы и того распределения по миллиону, которое она нам однозначно отдает. Можно строить любые предположения относительно трафика, придумывать экспоненциальные функции, но все это прохладные истории.


      1. caveeagle
        09.10.2016 00:52

        Жаль, нам неизвестно рспределение.
        Я бы предположил немного другое распределение, как более вероятное. Каждый следующий в два раза меньше, чем предыдущий. То есть, первое место — х, второе — х/2, третье — х/4… Но это лишь предположения.


      1. klirichek
        10.10.2016 06:16

        "Чем меньше — тем больше" — это всё же не вычесть значение из какого-то максимума, а честно взять обратное. Т.е. поделить константу на рейтинг. А вычитание, хоть и выглядит "похоже", но всё же даёт порой совсем странные результаты.


  1. Idot
    08.10.2016 23:12

    Надеюсь Медведев эту статью не увидит.


  1. crea7or
    08.10.2016 23:38
    -2

    Вы что, серьёзно? Найдите хоть одного пользователя в РФ с тулбаром Алексы. А если всё же найдёте — посчтитайте проценты. Да можно и не только РФ — весь мир давно забыл про Алексу. Они там впаривают математику, а не реальный рейтинг.


    1. daocrawler
      08.10.2016 23:50
      +3

      Вы понятия не имеете о том, что говорите.


      1. vabolshakov
        09.10.2016 16:52
        +1

        А можете в кратце пояснить? Буду благодарен.


        1. daocrawler
          09.10.2016 17:24
          +4

          Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.


  1. ikbrain
    09.10.2016 00:49
    +1

    >поднялся хайп вокруг адалт контента
    *тяжёлый, немного нервный вздох*


  1. xxvy
    09.10.2016 06:48

    Взять к примеру видео Вконтакте. Если снять галочку «Безопасный поиск» вываливается порнуха. Т.е. сам Вконтакте знает что из его видео порно, а что нет. Что ему мешает своими силами навести там «порядок»?


    1. maxpsyhos
      09.10.2016 08:51

      Скорее всего, это не «безопасный поиск», а «поиск по безопасным словам». То есть тупо наличие определённых ключевых слов, которые косвенно указывают, что там может быть порно. Или даже просто игнорирование по словарю некоторых ключевых слов в поисковой строке, то есть вы пишите «порно видео», а он ищет просто «видео».
      А потом кто-то во власти смотрит, что такая галочка вроде как работает, и думает, будто Вконтакт 100% знает о содержании каждого ролика и просто из вредности ничего не предпринимает.


      1. cheshirrrr
        10.10.2016 10:52

        Там точно не «поиск по безопасным словам». Даже если вы введете какое-нибудь безопасное слово(например какое-нибудь обычное и ничем непримечательное женское имя), то есть большой шанс, что сняв галочку «безопасный поиск» вы получите все что там есть. Правда иногда фильтр не срабатывает и оно проскакивает в результатах даже с включенным безопасным поиском.


        1. Assada
          10.10.2016 12:46

          Скорее всего дело в описании и авторе видео(возможно видео загрузили от имени группы 18+). Но это галочка 100% работает со стоп словами


    1. DrPass
      09.10.2016 17:09
      +2

      > Что ему мешает своими силами навести там «порядок»?
      Кто ж ими тогда пользоваться будет?


    1. DayLike
      10.10.2016 01:11
      -3

      Нет чтоб галочку убрать вообще, зачем она там вообще нужна????? Потом пройтись со словарём по базе и del всю эту мерзость, да и то тенденция какого то разложения в роликах которые там есть и что по телевизору показывают, какая то деградация и запустение а не развитие.
      Вот как бы вы растили своих детей в таких условиях?
      Я бы например сделал защиту которая блокирует всё даже намёк (кстати уже тестировал и работает) на всякую мерзость и не нужность, сделал бы интернет действительно нужной вещью, действительно информационной технологией для получения информации, реально нужной информации которая реально поможет в становлении личности и образовательного фундамента человека для того чтобы он мог развиваться, помогать другим и быть полезным не только своим родным но и множеству других людей. А как найти нормально что то в интернете когда там битком непонятно чего это как пройти мега квест аля: «Ну давай попробуй найти то, что ты действительно ищешь и не нарваться на ненужный хлам или не на враньё или заблуждение».


      1. argz
        11.10.2016 13:47
        +3

        Не надо перекладывать на интернет обязанности по воспитанию собственных детей.


  1. rockin
    09.10.2016 19:59

    Россия — это 150М пользователей в абсолютном максимуме. Т.е. это те, кто под шапкой роскомчетатам, включая меня.
    Остальной мир, для которой регятся домены и создаются сайты любой направленности — это, вдумайтесь, 7295М.
    Где 150М и где 7295М.

    А желания роскомчетатам наглухо закрываются всего лишь дешевенькой vps и nginx установленным там.