В рамках данной статьи мы будем проводить замеры динамики пульсации сущностей в информационном пространстве.
Выборка
За сегмент репрезентативной выборки информационного пространства мы приняли топ 1,000,000 доменов мира по Алексе и заставили краулер обходить главные страницы этих сайтов ежедневно.
Данные
Полученные данные обсчитываем на предмет упоминания в текстах интересующих нас сущностей (в данном случае: РПЦ, Путин, Трамп, G20) и отрисовываем на графике.
Предыстория
30 июня мы добавили поиск упоминания саммита G20, было интересно, как информационное пространство реагирует на достаточно крупное событие в мире политики. Ожидалась первая встреча президентов, всё обещало быть интересным. Путина и Трампа отслеживали и раньше, их удобно использовать в качестве сравнительных величин при анализе неизвестных сущностей, ну а РПЦ как-то добавили из спортивного интереса, хотелось понять, что происходит там вообще.
Визуализация
Вот так выглядит график роста упоминаний G20:
Интерактивный график
К моменту наступления события количество упоминаний выросло с 10 до 40 тысяч, это действительно большая информационная волна, для масштаба, можно сравнить с Российскими политиками:
Интерактивный график
ТОП 1 Медведев — 2,2к упоминаний, правда, это на русском, но все же. Заметно как Поклонская рванула вверх 6-го числа (в тот день она выложила нарезку порно)
Давайте посмотрим на всплеск упоминаний Путина и Трампа в день встречи:
Интерактивный график
Как мы можем заметить, для Путина — это самый сильный всплеск за последнее время (на латинице, сравните с волной по прямой линии за 15-е число), для Трампа, в принципе, тоже.
Если рассмотреть упоминания Путина отдельно (на кириллице и латинице), то картинка становится интереснее:
Интерактивный график
Обратите внимание на 15-е число, прямая линия, количество упоминаний Путина на кириллице практически сравнялось с показателем на латинице, огромный всплеск. Можно заметить приоритеты русскоязычного пространства, его явно больше интересуют внутренние дела, заметно, как с приближением G20 плавно увеличиваются упоминания Путина на русском, совершенно иное поведение в англоязычном сегменте.
Причём тут пиарщики РПЦ?
Если присмотреться к графику упоминаний аббревиатуры РПЦ:
Интерактивный график
Можно заметить, как Русская Православная Церковь стабильно наращивает свое присутствие в интернете, хайпят. Естественным ли образом или пиаром — вопрос отдельного исследования, но нам стало интересно, почему индекс упоминаний РПЦ обвалился в день встречи президентов и мы посмотрели на список доменов, с которых пропала аббревиатура. Выяснилось, что это на 87% те же, кто помогал усиленно освещать G20 в русском сегменте. Может в одном офисе сидят?)
Списки сайтов не публикуем только по той причине, что не уверены в своем законодательственном кунг-фу в сфере противодействия оскорблению чувств верующих. Да и вообще, не хотелось бы никакой политики, просто интересный получился замер, известной всем выборки.
Данные на графиках обновляются ежедневно.
Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Комментарии (37)
Survtur
08.07.2017 10:44+7Может быть в новостных сайтах умещается, например, 10 новостей. Просто новости про саммит вытеснили новости РПЦ.
Последите за РПЦ годик, а не несколько недель.stanislav-belichenko
08.07.2017 12:21+7Поддержу. Одни новостные тренды замещают другие, никакой конспирологии не требуется — штат сотрудников СМИ ограничен, их рабочее время тоже. Я бы скорее предположил, что это как раз противники РПЦ и заодно текущей власти переключили хайп с церкви на Путина.
Вообще же, намного интереснее было бы посмотреть на динамику новостей в целом, то есть на то, как от года к году меняется общее количество новостей в день, в русском сегменте сети. В соотношении с количеством СМИ, например.frees2
08.07.2017 14:00-5Штат сотрудников практически неограничен, вот в чём проблема.
Работа идёт в комплексе. Статья -> Реклама статьи через группу.
1 Политические и религиозные группы ( Всем известные, ещё по Брейвику.), после регистрации начинают капать денежки за комментарии и статьи. Реклама правых политиков, Буша, кока-колы, гнобление противников теории потепления. Практически все вирулентные группы, от воды Эмото до ГМО.
В жжчке какие то дамы набирают группы.
2 Софт. Агрегаторы. ( Раньше был и твиттер с фейсбуком, когда можно было посылать комментарии и статьи, разом пачками. )
Программу выклянчил из группы (ПИП), думал удобнее будет комментарии писать себе, но неудобно.
PavelZhigulin
08.07.2017 13:51+2Я бы с радостью понаблюдал до марта за графиком упоминаний Навального. (Только давайте не будем развивать политоту, пожалуйста).
daocrawler
08.07.2017 13:53+2График по Навальному в публичном доступе https://statoperator.com/research/russian-opposition-navalny/
Там есть интересные вещи, в сравнении динамики на разных языкахhmelni
10.07.2017 21:00+1интересная динамика если сравнить на русском языке всплесков почти нету это потому что о нем пишут только определённые сми а другие определённые сми не пишут даже когда есть информационный повод?
daocrawler
10.07.2017 21:41По всплескам в англоязычном сегменте могу пояснить:
2017-06-23 — в зарубежных СМИ пушится информация о том, что Навальный, как осужденный по уголовной статье, не имеет права принимать участие в президентский выборах
2017-07-07 — Навальный выходит из СИЗО
У нас тишина.
artyums
08.07.2017 14:11+8Ваш сайт довольно умело представляет данные. Например, тот же «провал РПЦ» выглядит большим на графике, а на самом то деле всего на ~40% меньше от максимума парой дней позже, ведь шкала начинается не от нуля (и к тому же графики, как специально, по-умолчанию строятся в лог-масштабе).
40% — это много? На мой взгляд — нет, просто штат журналистов, пишущих новости, все-таки ограничен — вот были поводы про очереди к мощам Николая Чудотворца в Москве, про них писали, вот появились поводы про G20, Трампа и Путина — стали писать про них.daocrawler
08.07.2017 14:15Не ищите чёрную кошку в тёмной комнате, особенно если её там нет. Есть же кнопка переключения шкалы на линейную/логарифмическую.
frees2
08.07.2017 15:04https://trends.google.ru/trends/explore?date=today%201-m&geo=UA&q=%D1%80%D0%BF%D1%86
Динамика популярности за 30 дней на Украине. Пик 5 июля.
https://statoperator.com/research/russian-orthodox-church/
Тоже пик 5 июля.
5 июля 2017 года в Патриаршей и Синодальной резиденции в Даниловом монастыре в Москве состоялась встреча Святейшего Патриарха Московского и всея Руси Кирилла с министром Российской Федерации по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий Владимиром Андреевичем Пучковым.daocrawler
08.07.2017 15:17+3Всё верно, и силу влияния этого события мы видим в скачке с 4-го на 5-е, 6-го фон естественным образом спадает, но 7-го числа резко падает в полтора раза от всей своей величины. Т.к. мы срезаем не запросы (гугл трендс), а контент, то это означает только то, что кто-то, кто постоянно писал про РПЦ резко убрал упоминания с морд. По какой причине — совсем другой вопрос, который можно обсудить с сообществом хабрахабра и накидать версий.
frees2
08.07.2017 16:12https://trends.google.ru/trends/explore?date=today%2012-m&q=%D1%80%D0%BF%D1%86
https://trends.google.ru/trends/explore?date=today%201-m&q=%D0%BF%D1%80%D0%B0%D0%B2%D0%BE%D1%81%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F
По другим ключевым словам тоже самое.
Запрос за 12 мес. в рамках (100% норма по двум ключевым словам.) стандартной корреляции. Насыщение новостью, спад, как всегда.
Петя. Пик 5 июля.
КИЕВ, 5 июля. Сотрудники правоохранительных органов Украины остановили вторую волну распространения в стране вируса…
5 июля 2017. Государственный «Ощадбанк» во второй раз подвергся атаке вируса Petya.
Перестали появляться комментарии пропагандистские с Украины.
AslanKurbanov
08.07.2017 14:33+1Связать тренды с новостями — разумный ход. Иначе не понятно почему вдруг взлетают какието слова.
Весьма показательный график в trends.google.ru например по слову «лабутены» резкий взлёт-(выложили клип на ютуб или тв эфир), поставщик обуви будет ошарашен.
tundrawolf_kiba
08.07.2017 15:05+3Я может быть опять чего-то не понимаю, но где здесь техническая часть? Без технической части это все же больше к тематике гиктаймс подходит, чем к хабру.
QDeathNick
09.07.2017 05:38Да, хотелось бы узнать почему вы только по избранному строите графики, а не по всем ключевым сущностям.
Увидите ли вы, если какая то сущность выскочит, из тех что не находится в избранном?
Это техническое ограничение?
stanislav-belichenko
08.07.2017 19:15Объясните мне, пожалуйста, а почему используется Alexa? Насколько я знаю, у нее довольно однобокая выборка, в силу источников, откуда она собирает данные.
daocrawler
09.07.2017 00:14+2В одном из топиков уже обсуждали этот вопрос, процитирую себя:
Alexa — исследовательская компания, владеет которой на данный момент Amazon. Собирают данные о сайтах различными способами: тулбаром, сканят, естественно джойнят внутри компании на все, что есть у Амазона, скорее всего договариваются с браузерами о сливе и т.д. Конечно, есть некоторые допущения, ведь они не знают реальных значений, а только строят прогнозы, конкретные цифры по количеству трафика нередко расходятся с реальными значениями + определенное смещение на аудиторию у которой установлен туллбар, но сам рейтинг, позиция сайта в списке топ 1,000,000 меняется достаточно динамично (если дергать его по API, на сайте он выводится с задержкой) и зачастую отражает реальное положение дел. Мы знаем это на практике, ежедневно сканируя этот топ 1м и сравнивая значения с собственными проектами. Даже при малом количестве трафика (независимо от страны) рейтинг успевает чутко реагировать на его изменения, имеющихся ресурсов по сбору данных у Алексы хватает (у нас несколько миллионов страниц в индексе в сумме по проектам). В общем: сам список топ 1м можно считать корректной репрезентативной выборкой сайтов интернета, на которых есть трафик, а исходя из значения рейтинга выдвигать различные гипотезы. Лучше в открытом доступе всё-равно ничего нет, к сожалению.
stanislav-belichenko
17.07.2017 06:03Лучше в открытом доступе всё-равно ничего нет, к сожалению.
Ключевая причина, как по мне. Ну и конечно на сайтах с большой посещаемостью (читай — из первого миллиона), наверное, их прогнозы действительно можно применять.
youlose
08.07.2017 21:34+31. Ещё, если сравнить под новый год упоминание деда мороза и по аналогии с постом экстраполировать на Путина, то пиарищики деда мороза тоже за него
2. Если вы почитаете что пишут про РПЦ (половина — точно грязь), слабые у них какие-то пиарщики получаются =)
erwins22
09.07.2017 00:14+1а можно привести значимость события в терминах вероятности?
например корреляции, Стьюдента или еще что…
сделать предсказание на месяц вперед и проверить правильность, а потом уже обсуждать…
а то статья напоминает статьи про глобальное потепление — температура растет… мы все умрем… за последние 10 лет возросла на… Если бы ученые были бы уверены впрогнозе на 50 лет вперед по климату, они б застраховали в страховых компаниях риски например на 2 трлн долларов. если шансы 1999/2000 что они правы, то сумма страховки составила бы 1 млрд. Думаю на таких условиях и самые злостные противники антиглобального потепления согласились.
ffsdmad
09.07.2017 00:17-4знаете древнюю поговорку про то чем занимается псина когда ей делать нечего?
так вот как будто про вас поговорка
Kriger91
09.07.2017 00:47+4Казалось бы, при чём тут ложные корреляции, ограниченность выборки, субъективная интерпретация и бритва Оккама? Разумеется тут заговор и пиарщики, а не объективные факты. И чем скажите это отличается от, например, всяких там новых хронологий и прочих всемирных заговоров массонов?
QDeathNick
09.07.2017 05:45Почти ничем не отличается, но теперь вы сможете приводить в качестве дополнительного примера график про G20 и РПЦ, что уже добавляет смысла этой затее.
Kriger91
09.07.2017 21:15Хм, а ведь и правда, будет что студентам рассказать при случае, спасибо за интересный взгляд. Но, всё же так себе повод такое делать.
frees2
09.07.2017 08:03-5О, очепятка, правильно — гнобление антропогенной теории потепления"
Профессионал пользователь хабрахабра будет плюсовать-минусовать за качество аналитики и кода, ангажированный же выступает за групповые интересы ( Путина, Порошенко, Христа, Абракадабры, заговоры, конспирологию, мнимые групповые интересы, без разницы.).
Группа объединена и управляема, а «оригинальный пользователь» нет.
Одиночка проигрывает группе.
Другое дело, падает в хабрахабре качество материалов и аналитики.
dmitry_ch
09.07.2017 14:53+1Никогда не думал, что РПЦ нужна реклама, с их-то положением!
Теперь знаю. Интересно, однажды они запилят свой ДЦ, CA, домен с церконо-славянскими буквами в нем, а заодно и свой интернет?daocrawler
09.07.2017 20:12РПЦ — организация достаточно серьезная, часть из того, что вы перечислили — уже реализована. Пользуясь случаем передаем ребятам привет!
dmitry_ch
09.07.2017 22:24Ну CA у них точно нет, они саму концепцию, наверное, не поймут — куда еще один CA, кроме них самих?
Хотя, это отличнаяидея для бизнесамысль для сбора пожертвований в обмен на бесплатные сертификаты!
Leo5700
11.07.2017 16:14Почему-то подумалось: на стандартной клавиатуре символы аббревиатур «РПЦ» и «G20» расположены подозрительно плизко друг к другу…
frees2
Пропаганда -антипропаганда. Петя шалил. Обвалил гос-серверы на Украине.
Пропали пропагандисты, причём все. Может софт стоял?
Посыпались вопросы, куда пропали (Разом десятки провластных комментариев ( Как правило примитивных по смыслу.). Пропали в Израиле, России, на ютубе. ), тоже удивился.