Мы ежедневно выполняем срез документов, расположенных на главных страницах миллиона самых посещаемых сайтов мира. Сегодня рассмотрим, как количество упоминаний кандидатов в президенты РФ коррелирует с происходящими оффлайн событиями.
Ссылка на график, шкала — линейная
Цифра соответствует количеству найденных упоминаний в тексте из корпуса html-документов получаемого краулером ежедневно, что позволяет нам выводить индекс для каждого кандидата. Обычно мы строим подобные индексы по брендам для маркетологов/pr-специалистов, но выборы — событие историческое.
Признаться, подошли мы к этому вопросу с некоторой халатностью, Собчак добавили каким-то чудом перед тем, как она объявила о своем желании выдвинуть кандидатуру, Грудинина уже когда стало понятно, что без него банкет не состоится. С другой стороны, у нас не было цели сделать доскональный анализ технологий кандидатов, хотели посмотреть как ведут себя топы.
На графике в начале темы мы можем наблюдать динамику упоминаний кандидатов. Шкала линейная, Путин улетел, сильнее всего к его индексу приближалась Собчак (когда объявила о своем выдвижении) и Навальный (когда ему ЦИК отказал в регистрации). Здесь шкала логарифмическая.
Рассмотрим детали
Путин
- Прямая линия с президентом
- Встреча Путина и Трампа
- День рождения Путина
- Отмена встречи с Трампом
- Выдвижение кандидатуры на пост президента
- Большая пресс-конференция Владимира Путина
- Обращение к федеральному собранию
Навальный
- Организовал митинг
- Навальный продал «Лайфу» видео про «отдых Навального во Франции». Заработал 10 тысяч рублей для своей президентской кампании. Meduza. Параллельно запустилась сеть сайтов по продаже атрибутики к выборам с символикой Навального. Именно эта сеть так задрала фон.
- Протестные акции сторонников Алексея Навального
- ЦИК отказал в регистрации
- Протестные акции сторонников Алексея Навального
- Сайт Навального внесли в черный список
Собчак, Жириновский
- МОСКВА, 4 сентября. /ТАСС/. Лидер ЛДПР Владимир Жириновский признался, что ему были неприятны публикации в российских СМИ, где утверждалось, что одним из кандидатов на предстоящих выборах в марте 2018 года будет женщина.
- Рождение Собчак, как кандидата в президенты. Хочется отметить, что фон упоминаний как влетел с уровня Жириновского, так полностью и не откатился.
- Собчак облила Жириновского водой во время дебатов
Грудинин, Жириновский
С Грудининым одни скандалы, ничего интересного (Жириновский для масштаба)
Общий вид
График будет обновляться ежедневно, система продолжает собирать данные, посмотрим, как события будут развиваться в последнюю неделю до голосования.
Интересные наблюдения
- У Жириновского самый сильный инфоповод за историю наблюдений — скандал с Собчак, количество упоминаний самое низкое.
- Грудинин скандалами запутал всех, но бьется в одной куче с остальными.
- Так, как о Собчак написали в тот день, когда она объявила о своем желании — не писали больше никогда (пока).
- Навальный падает.
- Информационная волна от выступления Путина с посланием Совету Федерации сравнима с первой встречей с Трампом.
P.S. Если кто-нибудь захочет провести собственное исследование, например, посчитать что-нибудь о кандидатах в новостных заголовках — пишите в личку, поделимся датасетами.
saboteur_kiev
Из этой краткой статьи, я вижу только одно.
Собчак — скандалистка 80. Жириновский — скандалист 90 левела, Грудини — просто скандалист.
Неужели так контролируется процесс регистрации, что туда могут попасть только специально подготовленные скандальные персонажи?
На всю РФ нет более адекватных людей, у которых есть какая-никакая поддержка и возможность уплатить взнос?
Tairesh
Есть, Явлинский, Титов и ещё пара совсем скучных
sevikl
переведу: есть «бездельник-неудачник уже 28 лет», «непонятно-кто» и еще пара даже более скучных.
Tairesh
Так скандалист нужен или нормальный скучный политик?
areht
> На всю РФ нет более адекватных людей, у которых есть какая-никакая поддержка и возможность уплатить взнос?
Есть некоторые трудности и с поддержкой, и со взносами
m0Ray
Грудинин-то с чего скандалист? Самый адекватный участник.
«Скандалы» вокруг него выдумывают СМИ, он сам честно и спокойно отвечает на все выпады. В балагане с обливанием водой участвовать отказался.
Уплатить взнос или предложить иную помощь (поработать наблюдателем, к примеру) можно в любом отделении КПРФ.
InstaHeat
Самое интересное среди этих скандалов — обвинение, что у него счета в Швейцарии. Это абсолютно абсурдно и направлено только на низкий сегмент электората. Любой сколь-либо адекватный человек понимает, что при регистрации проходят проверки и отправляются запросы в другие страны на предмет наличия счетов. Можно было бы еще допустить какой-нибудь офшор, но человек, который построил довольно успешный бизнес, не станет держать счета в Швейцарии после того, как стал кандидатом.
Ну если и станет, тогда нам точно такой президент не нужен. Однако доказательств никаких нет, только голое заявление.
p.s. я не за него, только за честность в конкуренции
kmmbvnr
Как раз на такой запрос о счетах, пришел ответ, что по состоянию на 31 декабря 2017 года счета были. Зарегистрированным кандидатом Грудинин стал 12 января 2018.
Это конечно очередная дыра в законах. Но благодаря тому что на нее наступил нужный человек, создался положительный прецендент, а не очередной барьер.
sevikl
так чего же не отказали то ему тогда. по-хорошему надо было бы.
vanxant
А там нашли как вывернуться. Счёта были на 31.12, к 12.01 их могло и не быть. Формально оснований нет.))
m0Ray
И он честно рассказал, для чего нужны были эти счета (лечение родственников за границей), и что он их закрыл, прежде чем регистрироваться. На момент регистрации оставались только корсчета, к которым он отношения не имеет. Что не так?
Вы лучше бы спросили, сколько у Вовочки счетов и где…
domix32
dmitryredkin
Вы чо? Какие кандидаты? Вся политическая поляна выжигается напалмом. Чтобы у любого умного человека (пассионариев типа Н. оставим за скобками) даже мысли не возникало вылезти соревноваться с Папой.
ToshiruWang
Насчёт «никто другой» — была когда-то картинка.
Или другой вариант, но не нашёл быстро
— Никто не проголосует
— Первый раз вижу
…
— ВВП
В прошлый раз были смешные персонажи типа «вышел Бетмен» (не помню как зовут гражданку), но она слилась в процессе. Потому только такой цирк и никакой реальной альтернативы, даже «Против всех».
EndUser
Вы различаете источники — "СМИ/ихаккаунты" в отличие от "люди" и "перепосты"?
P.S. В мизантропской манере про выборы рассказал Юлин "в гостях у Гоблина" — любопытно.
SADKO
Хо-хо-хо, какая толстая тема, и на хабре, а какие комментаторы и кого обсуждают, да по каким сценариям, ну…
… предлагаю выпилить в топку эту политоту, ибо на исследование даже по чисто формальным признакам этот топик никак не тянет, ценности не представляет
Eldhenn
Ну и при чём здесь предвыборная гонка? Вы считаете упоминания людей, которые В ЧАСТНОСТИ являются кандидатами на пост президента. Контекст кто учитывать будет, Пушкин?
Daniil1979
Голосуй, не голосуй — всё равно получишь @уй.
Голосуй, не голосуй — всё равно у власти @уй.
Выборы, выборы — все кандидаты п@#$%ы! (За исключением Ксюшади, конечно же, которая с идиотской идеей отдать Крым Украине потеряла голоса очень многих и многих...)
Kabytov
Интересны бы посмотреть на датасеты Google
uncle_goga
Посмотрели статистику и баиньки, незачем разводить демагогию кто лучше или хуже
elingur
А каков у вас объем выборки (в словах или байтах) и кол-во источников (скажем, за сутки)?
daocrawler Автор
Топ 1М сайтов мира, ежедневно
elingur
М — это миллион, миллиард или мегабайт? У вас исследование на русском языке (или нет? вы не указали, какие языки используете). Нет ни слова ни об объеме, ни о презентабельности выборки. Что вы собираете: только СМИ или только соц.медиа. Учитывая, что сбор соц. медиа — задача не из тривиальных, то выборка по русскоязычным СМИ — это не более 5% от общего потока русскоязычных сообщений. Поэтому это либо плохо написанная статья, либо дешевый пиар под выборы.
daocrawler Автор
Вы невнимательны. Выборка обозначена в самом начале. В рамках данной статьи мы срезаем все сайты мира, на которые заходит более 500 человек в день (их получается чуть больше миллиона). Краулер проходит каждый день по морде и срезает контент. Далее выделяем тексты и считаем в них упоминания интересующих сущностей. Динамику по количеству упоминаний — визуализировали. Что значит СМИ, какие 5%, от чего, о каких сообщениях вы говорите? Мы сайты исследуем. Все русские сайты с трафиком присутствуют в топ 1м, глазами список Алексы посмотрите. Английские тоже обсчитываются statoperator.com/#data=putin
Это история о том, какие данные из веб-корпуса можно намайнить выполняя 1,000,000 mapreduce операций ежедневно. Вы спрашивали о словах: ~100,000,000 в срезе.
elingur
— примерно такой ежедневный поток (в словах) генерируемых только в русскоязычном секторе. В англоговорящем — на несколько порядков выше. У вас нет распознавания языка: putin практически во всех индо-европейских языках пишется одинаково. Поэтому ваша статистика только с официальных открытых сайтов, типа СМИ — средств массовой информации, причем разделенная не по языку, а только по алфавиту. Вы же не майните твитер, фейсбук, вконтакте и пр. — а соц.сети это до 95% новой информации. Я про это говорил.
daocrawler Автор
В каком секторе, о каком потоке вы говорите, откуда данные? Еще раз повторяю, мы срезаем все, что написали сайты (паблишеры), а не юзеры.
elingur
Поток — это все, что генериться, например, за сутки: вся текстовая информация в интернете. Не важно это паблишеры или юзеры. Тем более, что в современных реалиях они не различимы: у юзера может быть многотысячная аудитория. Разница только в том, что одни открыты, а другие закрыты для скачивания без регистрации.