В рамках данной статьи мы будем проводить замеры динамики пульсации сущностей в информационном пространстве.

Выборка


За сегмент репрезентативной выборки информационного пространства мы приняли топ 1,000,000 доменов мира по Алексе и заставили краулер обходить главные страницы этих сайтов ежедневно.

Данные


Полученные данные обсчитываем на предмет упоминания в текстах интересующих нас сущностей (в данном случае: РПЦ, Путин, Трамп, G20) и отрисовываем на графике.

Предыстория


30 июня мы добавили поиск упоминания саммита G20, было интересно, как информационное пространство реагирует на достаточно крупное событие в мире политики. Ожидалась первая встреча президентов, всё обещало быть интересным. Путина и Трампа отслеживали и раньше, их удобно использовать в качестве сравнительных величин при анализе неизвестных сущностей, ну а РПЦ как-то добавили из спортивного интереса, хотелось понять, что происходит там вообще.

Визуализация


Вот так выглядит график роста упоминаний G20:



Интерактивный график

К моменту наступления события количество упоминаний выросло с 10 до 40 тысяч, это действительно большая информационная волна, для масштаба, можно сравнить с Российскими политиками:



Интерактивный график

ТОП 1 Медведев — 2,2к упоминаний, правда, это на русском, но все же. Заметно как Поклонская рванула вверх 6-го числа (в тот день она выложила нарезку порно)

Давайте посмотрим на всплеск упоминаний Путина и Трампа в день встречи:



Интерактивный график

Как мы можем заметить, для Путина — это самый сильный всплеск за последнее время (на латинице, сравните с волной по прямой линии за 15-е число), для Трампа, в принципе, тоже.

Если рассмотреть упоминания Путина отдельно (на кириллице и латинице), то картинка становится интереснее:



Интерактивный график

Обратите внимание на 15-е число, прямая линия, количество упоминаний Путина на кириллице практически сравнялось с показателем на латинице, огромный всплеск. Можно заметить приоритеты русскоязычного пространства, его явно больше интересуют внутренние дела, заметно, как с приближением G20 плавно увеличиваются упоминания Путина на русском, совершенно иное поведение в англоязычном сегменте.

Причём тут пиарщики РПЦ?


Если присмотреться к графику упоминаний аббревиатуры РПЦ:



Интерактивный график

Можно заметить, как Русская Православная Церковь стабильно наращивает свое присутствие в интернете, хайпят. Естественным ли образом или пиаром — вопрос отдельного исследования, но нам стало интересно, почему индекс упоминаний РПЦ обвалился в день встречи президентов и мы посмотрели на список доменов, с которых пропала аббревиатура. Выяснилось, что это на 87% те же, кто помогал усиленно освещать G20 в русском сегменте. Может в одном офисе сидят?)

Списки сайтов не публикуем только по той причине, что не уверены в своем законодательственном кунг-фу в сфере противодействия оскорблению чувств верующих. Да и вообще, не хотелось бы никакой политики, просто интересный получился замер, известной всем выборки.

Данные на графиках обновляются ежедневно.
Хотели бы вы замерить в данном корпусе что-нибудь своё, прямо регуляркой?

Проголосовал 361 человек. Воздержалось 256 человек.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Поделиться с друзьями
-->

Комментарии (37)


  1. frees2
    08.07.2017 10:40
    -12

    Пропаганда -антипропаганда. Петя шалил. Обвалил гос-серверы на Украине.
    Пропали пропагандисты, причём все. Может софт стоял?
    Посыпались вопросы, куда пропали (Разом десятки провластных комментариев ( Как правило примитивных по смыслу.). Пропали в Израиле, России, на ютубе. ), тоже удивился.


  1. Survtur
    08.07.2017 10:44
    +7

    Может быть в новостных сайтах умещается, например, 10 новостей. Просто новости про саммит вытеснили новости РПЦ.

    Последите за РПЦ годик, а не несколько недель.


    1. daocrawler
      08.07.2017 10:50
      +3

      График будет обновляться публично, посмотрим что будет за год


    1. stanislav-belichenko
      08.07.2017 12:21
      +7

      Поддержу. Одни новостные тренды замещают другие, никакой конспирологии не требуется — штат сотрудников СМИ ограничен, их рабочее время тоже. Я бы скорее предположил, что это как раз противники РПЦ и заодно текущей власти переключили хайп с церкви на Путина.

      Вообще же, намного интереснее было бы посмотреть на динамику новостей в целом, то есть на то, как от года к году меняется общее количество новостей в день, в русском сегменте сети. В соотношении с количеством СМИ, например.


      1. frees2
        08.07.2017 14:00
        -5

        Штат сотрудников практически неограничен, вот в чём проблема.
        Работа идёт в комплексе. Статья -> Реклама статьи через группу.

        1 Политические и религиозные группы ( Всем известные, ещё по Брейвику.), после регистрации начинают капать денежки за комментарии и статьи. Реклама правых политиков, Буша, кока-колы, гнобление противников теории потепления. Практически все вирулентные группы, от воды Эмото до ГМО.
        В жжчке какие то дамы набирают группы.

        2 Софт. Агрегаторы. ( Раньше был и твиттер с фейсбуком, когда можно было посылать комментарии и статьи, разом пачками. )
        Программу выклянчил из группы (ПИП), думал удобнее будет комментарии писать себе, но неудобно.


  1. PavelZhigulin
    08.07.2017 13:51
    +2

    Я бы с радостью понаблюдал до марта за графиком упоминаний Навального. (Только давайте не будем развивать политоту, пожалуйста).


    1. daocrawler
      08.07.2017 13:53
      +2

      График по Навальному в публичном доступе https://statoperator.com/research/russian-opposition-navalny/

      Там есть интересные вещи, в сравнении динамики на разных языках


      1. PavelZhigulin
        08.07.2017 14:17

        Спасибо, не знал.


      1. hmelni
        10.07.2017 21:00
        +1

        интересная динамика если сравнить на русском языке всплесков почти нету это потому что о нем пишут только определённые сми а другие определённые сми не пишут даже когда есть информационный повод?


        1. daocrawler
          10.07.2017 21:41

          По всплескам в англоязычном сегменте могу пояснить:

          2017-06-23 — в зарубежных СМИ пушится информация о том, что Навальный, как осужденный по уголовной статье, не имеет права принимать участие в президентский выборах
          2017-07-07 — Навальный выходит из СИЗО

          У нас тишина.


        1. daocrawler
          10.07.2017 21:53


  1. artyums
    08.07.2017 14:11
    +8

    Ваш сайт довольно умело представляет данные. Например, тот же «провал РПЦ» выглядит большим на графике, а на самом то деле всего на ~40% меньше от максимума парой дней позже, ведь шкала начинается не от нуля (и к тому же графики, как специально, по-умолчанию строятся в лог-масштабе).
    40% — это много? На мой взгляд — нет, просто штат журналистов, пишущих новости, все-таки ограничен — вот были поводы про очереди к мощам Николая Чудотворца в Москве, про них писали, вот появились поводы про G20, Трампа и Путина — стали писать про них.


    1. daocrawler
      08.07.2017 14:15

      Не ищите чёрную кошку в тёмной комнате, особенно если её там нет. Есть же кнопка переключения шкалы на линейную/логарифмическую.


      1. frees2
        08.07.2017 15:04

        https://trends.google.ru/trends/explore?date=today%201-m&geo=UA&q=%D1%80%D0%BF%D1%86
        Динамика популярности за 30 дней на Украине. Пик 5 июля.

        https://statoperator.com/research/russian-orthodox-church/
        Тоже пик 5 июля.

        5 июля 2017 года в Патриаршей и Синодальной резиденции в Даниловом монастыре в Москве состоялась встреча Святейшего Патриарха Московского и всея Руси Кирилла с министром Российской Федерации по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий Владимиром Андреевичем Пучковым.


        1. daocrawler
          08.07.2017 15:17
          +3

          Всё верно, и силу влияния этого события мы видим в скачке с 4-го на 5-е, 6-го фон естественным образом спадает, но 7-го числа резко падает в полтора раза от всей своей величины. Т.к. мы срезаем не запросы (гугл трендс), а контент, то это означает только то, что кто-то, кто постоянно писал про РПЦ резко убрал упоминания с морд. По какой причине — совсем другой вопрос, который можно обсудить с сообществом хабрахабра и накидать версий.


          1. frees2
            08.07.2017 16:12

            https://trends.google.ru/trends/explore?date=today%2012-m&q=%D1%80%D0%BF%D1%86
            https://trends.google.ru/trends/explore?date=today%201-m&q=%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D1%81%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F
            По другим ключевым словам тоже самое.
            Запрос за 12 мес. в рамках (100% норма по двум ключевым словам.) стандартной корреляции. Насыщение новостью, спад, как всегда.

            Петя. Пик 5 июля.
            КИЕВ, 5 июля. Сотрудники правоохранительных органов Украины остановили вторую волну распространения в стране вируса…
            5 июля 2017. Государственный «Ощадбанк» во второй раз подвергся атаке вируса Petya.
            Перестали появляться комментарии пропагандистские с Украины.


  1. AslanKurbanov
    08.07.2017 14:33
    +1

    Связать тренды с новостями — разумный ход. Иначе не понятно почему вдруг взлетают какието слова.

    Весьма показательный график в trends.google.ru например по слову «лабутены» резкий взлёт-(выложили клип на ютуб или тв эфир), поставщик обуви будет ошарашен.


  1. tundrawolf_kiba
    08.07.2017 15:05
    +3

    Я может быть опять чего-то не понимаю, но где здесь техническая часть? Без технической части это все же больше к тематике гиктаймс подходит, чем к хабру.


    1. QDeathNick
      09.07.2017 05:38

      Да, хотелось бы узнать почему вы только по избранному строите графики, а не по всем ключевым сущностям.
      Увидите ли вы, если какая то сущность выскочит, из тех что не находится в избранном?
      Это техническое ограничение?


  1. stanislav-belichenko
    08.07.2017 19:15

    Объясните мне, пожалуйста, а почему используется Alexa? Насколько я знаю, у нее довольно однобокая выборка, в силу источников, откуда она собирает данные.


    1. daocrawler
      09.07.2017 00:14
      +2

      В одном из топиков уже обсуждали этот вопрос, процитирую себя:

      Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.


      1. stanislav-belichenko
        17.07.2017 06:03

        Лучше в открытом доступе всё-равно ничего нет, к сожалению.

        Ключевая причина, как по мне. Ну и конечно на сайтах с большой посещаемостью (читай — из первого миллиона), наверное, их прогнозы действительно можно применять.


  1. youlose
    08.07.2017 21:34
    +3

    1. Ещё, если сравнить под новый год упоминание деда мороза и по аналогии с постом экстраполировать на Путина, то пиарищики деда мороза тоже за него
    2. Если вы почитаете что пишут про РПЦ (половина — точно грязь), слабые у них какие-то пиарщики получаются =)


  1. erwins22
    09.07.2017 00:14
    +1

    а можно привести значимость события в терминах вероятности?
    например корреляции, Стьюдента или еще что…
    сделать предсказание на месяц вперед и проверить правильность, а потом уже обсуждать…
    а то статья напоминает статьи про глобальное потепление — температура растет… мы все умрем… за последние 10 лет возросла на… Если бы ученые были бы уверены впрогнозе на 50 лет вперед по климату, они б застраховали в страховых компаниях риски например на 2 трлн долларов. если шансы 1999/2000 что они правы, то сумма страховки составила бы 1 млрд. Думаю на таких условиях и самые злостные противники антиглобального потепления согласились.


  1. ffsdmad
    09.07.2017 00:17
    -4

    знаете древнюю поговорку про то чем занимается псина когда ей делать нечего?
    так вот как будто про вас поговорка


  1. Kriger91
    09.07.2017 00:47
    +4

    Казалось бы, при чём тут ложные корреляции, ограниченность выборки, субъективная интерпретация и бритва Оккама? Разумеется тут заговор и пиарщики, а не объективные факты. И чем скажите это отличается от, например, всяких там новых хронологий и прочих всемирных заговоров массонов?

    image


    1. QDeathNick
      09.07.2017 05:45

      Почти ничем не отличается, но теперь вы сможете приводить в качестве дополнительного примера график про G20 и РПЦ, что уже добавляет смысла этой затее.


      1. Kriger91
        09.07.2017 21:15

        Хм, а ведь и правда, будет что студентам рассказать при случае, спасибо за интересный взгляд. Но, всё же так себе повод такое делать.


    1. daocrawler
      09.07.2017 21:58
      -1

      В чём ваш тезис? О каких объективных фактах вы говорите?


  1. frees2
    09.07.2017 08:03
    -5

    О, очепятка, правильно — гнобление антропогенной теории потепления"

    Профессионал пользователь хабрахабра будет плюсовать-минусовать за качество аналитики и кода, ангажированный же выступает за групповые интересы ( Путина, Порошенко, Христа, Абракадабры, заговоры, конспирологию, мнимые групповые интересы, без разницы.).

    Группа объединена и управляема, а «оригинальный пользователь» нет.
    Одиночка проигрывает группе.
    Другое дело, падает в хабрахабре качество материалов и аналитики.


  1. dmitry_ch
    09.07.2017 14:53
    +1

    Никогда не думал, что РПЦ нужна реклама, с их-то положением!

    Теперь знаю. Интересно, однажды они запилят свой ДЦ, CA, домен с церконо-славянскими буквами в нем, а заодно и свой интернет?


    1. daocrawler
      09.07.2017 20:12

      РПЦ — организация достаточно серьезная, часть из того, что вы перечислили — уже реализована. Пользуясь случаем передаем ребятам привет!


      1. dmitry_ch
        09.07.2017 22:24

        Ну CA у них точно нет, они саму концепцию, наверное, не поймут — куда еще один CA, кроме них самих?

        Хотя, это отличная идея для бизнеса мысль для сбора пожертвований в обмен на бесплатные сертификаты!


  1. divanus
    10.07.2017 01:01
    +1

    Где набирают ИТ-шников в РПЦ? :)


    1. Ogoun
      10.07.2017 19:30
      +2

      Их не набирают, их как боевиков готовят с рождения, и потому не ведают они что творят.


  1. Leo5700
    11.07.2017 16:14

    Почему-то подумалось: на стандартной клавиатуре символы аббревиатур «РПЦ» и «G20» расположены подозрительно плизко друг к другу…


  1. akjoler
    11.07.2017 18:27

    Доморощенная конспирология, введение для чайников.