Мы ежедневно выполняем срез документов, расположенных на главных страницах миллиона самых посещаемых сайтов мира. Сегодня рассмотрим, как количество упоминаний кандидатов в президенты РФ коррелирует с происходящими оффлайн событиями.

Ссылка на график, шкала — линейная

Цифра соответствует количеству найденных упоминаний в тексте из корпуса html-документов получаемого краулером ежедневно, что позволяет нам выводить индекс для каждого кандидата. Обычно мы строим подобные индексы по брендам для маркетологов/pr-специалистов, но выборы — событие историческое.

Признаться, подошли мы к этому вопросу с некоторой халатностью, Собчак добавили каким-то чудом перед тем, как она объявила о своем желании выдвинуть кандидатуру, Грудинина уже когда стало понятно, что без него банкет не состоится. С другой стороны, у нас не было цели сделать доскональный анализ технологий кандидатов, хотели посмотреть как ведут себя топы.

На графике в начале темы мы можем наблюдать динамику упоминаний кандидатов. Шкала линейная, Путин улетел, сильнее всего к его индексу приближалась Собчак (когда объявила о своем выдвижении) и Навальный (когда ему ЦИК отказал в регистрации). Здесь шкала логарифмическая.

Рассмотрим детали


Путин




  1. Прямая линия с президентом
  2. Встреча Путина и Трампа
  3. День рождения Путина
  4. Отмена встречи с Трампом
  5. Выдвижение кандидатуры на пост президента
  6. Большая пресс-конференция Владимира Путина
  7. Обращение к федеральному собранию



Навальный




  1. Организовал митинг
  2. Навальный продал «Лайфу» видео про «отдых Навального во Франции». Заработал 10 тысяч рублей для своей президентской кампании. Meduza. Параллельно запустилась сеть сайтов по продаже атрибутики к выборам с символикой Навального. Именно эта сеть так задрала фон.
  3. Протестные акции сторонников Алексея Навального
  4. ЦИК отказал в регистрации
  5. Протестные акции сторонников Алексея Навального
  6. Сайт Навального внесли в черный список



Собчак, Жириновский




  1. МОСКВА, 4 сентября. /ТАСС/. Лидер ЛДПР Владимир Жириновский признался, что ему были неприятны публикации в российских СМИ, где утверждалось, что одним из кандидатов на предстоящих выборах в марте 2018 года будет женщина.
  2. Рождение Собчак, как кандидата в президенты. Хочется отметить, что фон упоминаний как влетел с уровня Жириновского, так полностью и не откатился.
  3. Собчак облила Жириновского водой во время дебатов



Грудинин, Жириновский




С Грудининым одни скандалы, ничего интересного (Жириновский для масштаба)


Общий вид




График будет обновляться ежедневно, система продолжает собирать данные, посмотрим, как события будут развиваться в последнюю неделю до голосования.

Интересные наблюдения


  1. У Жириновского самый сильный инфоповод за историю наблюдений — скандал с Собчак, количество упоминаний самое низкое.
  2. Грудинин скандалами запутал всех, но бьется в одной куче с остальными.
  3. Так, как о Собчак написали в тот день, когда она объявила о своем желании — не писали больше никогда (пока).
  4. Навальный падает.
  5. Информационная волна от выступления Путина с посланием Совету Федерации сравнима с первой встречей с Трампом.



P.S. Если кто-нибудь захочет провести собственное исследование, например, посчитать что-нибудь о кандидатах в новостных заголовках — пишите в личку, поделимся датасетами.

Комментарии (27)


  1. saboteur_kiev
    13.03.2018 03:12
    +1

    Из этой краткой статьи, я вижу только одно.
    Собчак — скандалистка 80. Жириновский — скандалист 90 левела, Грудини — просто скандалист.

    Неужели так контролируется процесс регистрации, что туда могут попасть только специально подготовленные скандальные персонажи?

    На всю РФ нет более адекватных людей, у которых есть какая-никакая поддержка и возможность уплатить взнос?


    1. Tairesh
      13.03.2018 08:11

      Есть, Явлинский, Титов и ещё пара совсем скучных


      1. sevikl
        13.03.2018 10:27
        +3

        переведу: есть «бездельник-неудачник уже 28 лет», «непонятно-кто» и еще пара даже более скучных.


        1. Tairesh
          13.03.2018 18:30

          Так скандалист нужен или нормальный скучный политик?


    1. areht
      13.03.2018 08:48

      > На всю РФ нет более адекватных людей, у которых есть какая-никакая поддержка и возможность уплатить взнос?

      Есть некоторые трудности и с поддержкой, и со взносами


    1. m0Ray
      13.03.2018 08:51
      +1

      Грудинин-то с чего скандалист? Самый адекватный участник.
      «Скандалы» вокруг него выдумывают СМИ, он сам честно и спокойно отвечает на все выпады. В балагане с обливанием водой участвовать отказался.
      Уплатить взнос или предложить иную помощь (поработать наблюдателем, к примеру) можно в любом отделении КПРФ.


      1. InstaHeat
        13.03.2018 09:26

        Самое интересное среди этих скандалов — обвинение, что у него счета в Швейцарии. Это абсолютно абсурдно и направлено только на низкий сегмент электората. Любой сколь-либо адекватный человек понимает, что при регистрации проходят проверки и отправляются запросы в другие страны на предмет наличия счетов. Можно было бы еще допустить какой-нибудь офшор, но человек, который построил довольно успешный бизнес, не станет держать счета в Швейцарии после того, как стал кандидатом.
        Ну если и станет, тогда нам точно такой президент не нужен. Однако доказательств никаких нет, только голое заявление.
        p.s. я не за него, только за честность в конкуренции


        1. kmmbvnr
          13.03.2018 09:39

          Как раз на такой запрос о счетах, пришел ответ, что по состоянию на 31 декабря 2017 года счета были. Зарегистрированным кандидатом Грудинин стал 12 января 2018.

          Это конечно очередная дыра в законах. Но благодаря тому что на нее наступил нужный человек, создался положительный прецендент, а не очередной барьер.


          1. sevikl
            13.03.2018 10:29

            так чего же не отказали то ему тогда. по-хорошему надо было бы.


            1. vanxant
              13.03.2018 16:47

              А там нашли как вывернуться. Счёта были на 31.12, к 12.01 их могло и не быть. Формально оснований нет.))


          1. m0Ray
            13.03.2018 21:37

            И он честно рассказал, для чего нужны были эти счета (лечение родственников за границей), и что он их закрыл, прежде чем регистрироваться. На момент регистрации оставались только корсчета, к которым он отношения не имеет. Что не так?
            Вы лучше бы спросили, сколько у Вовочки счетов и где…


    1. domix32
      13.03.2018 10:40
      +2

      А что Титов? ©


    1. dmitryredkin
      14.03.2018 23:40

      Вы чо? Какие кандидаты? Вся политическая поляна выжигается напалмом. Чтобы у любого умного человека (пассионариев типа Н. оставим за скобками) даже мысли не возникало вылезти соревноваться с Папой.


    1. ToshiruWang
      15.03.2018 13:36

      Насчёт «никто другой» — была когда-то картинка.

      Заголовок спойлера
      image
      Или другой вариант, но не нашёл быстро
      — Никто не проголосует
      — Первый раз вижу

      — ВВП
      В прошлый раз были смешные персонажи типа «вышел Бетмен» (не помню как зовут гражданку), но она слилась в процессе. Потому только такой цирк и никакой реальной альтернативы, даже «Против всех».


  1. EndUser
    13.03.2018 06:48

    Вы различаете источники — "СМИ/ихаккаунты" в отличие от "люди" и "перепосты"?


    P.S. В мизантропской манере про выборы рассказал Юлин "в гостях у Гоблина" — любопытно.


  1. SADKO
    13.03.2018 10:00
    -1

    Хо-хо-хо, какая толстая тема, и на хабре, а какие комментаторы и кого обсуждают, да по каким сценариям, ну…
    … предлагаю выпилить в топку эту политоту, ибо на исследование даже по чисто формальным признакам этот топик никак не тянет, ценности не представляет


  1. Eldhenn
    13.03.2018 10:06

    Ну и при чём здесь предвыборная гонка? Вы считаете упоминания людей, которые В ЧАСТНОСТИ являются кандидатами на пост президента. Контекст кто учитывать будет, Пушкин?


  1. Daniil1979
    13.03.2018 10:20
    +1

    Голосуй, не голосуй — всё равно получишь @уй.
    Голосуй, не голосуй — всё равно у власти @уй.
    Выборы, выборы — все кандидаты п@#$%ы! (За исключением Ксюшади, конечно же, которая с идиотской идеей отдать Крым Украине потеряла голоса очень многих и многих...)


  1. Kabytov
    13.03.2018 10:53

    Интересны бы посмотреть на датасеты Google


  1. uncle_goga
    13.03.2018 18:08

    Посмотрели статистику и баиньки, незачем разводить демагогию кто лучше или хуже


  1. elingur
    14.03.2018 10:43

    А каков у вас объем выборки (в словах или байтах) и кол-во источников (скажем, за сутки)?


    1. daocrawler Автор
      14.03.2018 11:43

      Топ 1М сайтов мира, ежедневно


  1. elingur
    14.03.2018 11:58
    -1

    М — это миллион, миллиард или мегабайт? У вас исследование на русском языке (или нет? вы не указали, какие языки используете). Нет ни слова ни об объеме, ни о презентабельности выборки. Что вы собираете: только СМИ или только соц.медиа. Учитывая, что сбор соц. медиа — задача не из тривиальных, то выборка по русскоязычным СМИ — это не более 5% от общего потока русскоязычных сообщений. Поэтому это либо плохо написанная статья, либо дешевый пиар под выборы.


    1. daocrawler Автор
      14.03.2018 12:16

      Вы невнимательны. Выборка обозначена в самом начале. В рамках данной статьи мы срезаем все сайты мира, на которые заходит более 500 человек в день (их получается чуть больше миллиона). Краулер проходит каждый день по морде и срезает контент. Далее выделяем тексты и считаем в них упоминания интересующих сущностей. Динамику по количеству упоминаний — визуализировали. Что значит СМИ, какие 5%, от чего, о каких сообщениях вы говорите? Мы сайты исследуем. Все русские сайты с трафиком присутствуют в топ 1м, глазами список Алексы посмотрите. Английские тоже обсчитываются statoperator.com/#data=putin

      Это история о том, какие данные из веб-корпуса можно намайнить выполняя 1,000,000 mapreduce операций ежедневно. Вы спрашивали о словах: ~100,000,000 в срезе.


  1. elingur
    14.03.2018 13:10

    Вы спрашивали о словах: ~100,000,000 в срезе.

    — примерно такой ежедневный поток (в словах) генерируемых только в русскоязычном секторе. В англоговорящем — на несколько порядков выше. У вас нет распознавания языка: putin практически во всех индо-европейских языках пишется одинаково. Поэтому ваша статистика только с официальных открытых сайтов, типа СМИ — средств массовой информации, причем разделенная не по языку, а только по алфавиту. Вы же не майните твитер, фейсбук, вконтакте и пр. — а соц.сети это до 95% новой информации. Я про это говорил.


    1. daocrawler Автор
      14.03.2018 13:15

      В каком секторе, о каком потоке вы говорите, откуда данные? Еще раз повторяю, мы срезаем все, что написали сайты (паблишеры), а не юзеры.


  1. elingur
    14.03.2018 13:46

    Поток — это все, что генериться, например, за сутки: вся текстовая информация в интернете. Не важно это паблишеры или юзеры. Тем более, что в современных реалиях они не различимы: у юзера может быть многотысячная аудитория. Разница только в том, что одни открыты, а другие закрыты для скачивания без регистрации.