Я решил проанализировать распределение голосов за разных кандидатов по времени. Для этого я взял 2 млн. расшифрованных бюллетеней (опять же, спасибо @Peter_Zhizhinза ссылку) и сопоставил их с данными о транзакциях. Получилось отображение (время голосования -> id кандидата). Здесь использована база из .sql-дампа с observer.mos.ru, чуть подробнее про неё было в упомянутой статье.

Примерный код на PostgreSQL
-- Таблицы и колонки названы неудачно, простите
CREATE table decrypted_choices (
   tx_store_hash character varying(64),
   decoded_vote bigint);

COPY decrypted_choices
	 FROM '//path/to/decoded_votes_manual.csv' WITH (FORMAT csv);

CREATE table vote_times (
   datetime timestamp with time zone,
   vote bigint);

insert into vote_times (datetime, vote) 
 	 select transactions.datetime, decrypted_choices.decoded_vote as vote
   FROM transactions
   inner join decrypted_choices
   ON transactions.hash = decrypted_choices.tx_store_hash;

\o vote_times.jsonl

COPY
	(SELECT ROW_TO_JSON(t) FROM(select * from vote_times order by datetime) t)
  TO stdout;

Далее я стал рисовать графики для пар кандидатов (код в ноутбуке). Для этого я брал по каждому округу трёх кандидатов, набравших максимальное число голосов, и рисовал попарное соотношение их результатов: 1-го ко 2-му и 2-го к 3-му. Например, в округе №197 распределение голосов среди медалистов такое: Попов -- 50420, Лобанов -- 30034, Бальмонт -- 8144. Берём результаты Попова и Лобанова. Разобьём всё время голосования на 70 равных интервалов и посчитаем, сколько каждый из кандидатов набрал в этот промежуток. Получится пара гистограмм, которые мы изобразим на одной картинке. Также давайте посчитаем отношение результата Попова к результату Лобанова на каждом интервале (то есть получим отношение гистограмм). Чего мы ожидаем от этих графиков? Интуитивно кажется, что так как случайные величины "время, когда избиратель проголосовал" и "кандидат, за которого отдан голос" практически независимы, то второй график (отношение гистограмм) должен колебаться вокруг константы. Проще говоря, странно, если в условном интервале 08:30-09:00 в воскресенье проголосует 700 человек за Лобанова и 1300 за Попова, а в интервале 15:30-16:00 -- наоборот: 600 за Лобанова и 300 за Попова. Но это интуиция, а что на самом деле?

Округ 197: Лобанов (2-й) vs. Попов (1-й)
Округ 197: Лобанов (2-й) vs. Попов (1-й)

Выглядит очень странно, как по мне. Но может быть, у меня какая-то неправильная интуиция? Давайте сравним Лобанова и Бальмонта (бронзового медалиста).

Округ 197: Лобанов (2-й) vs. Бальмонт (3-й)
Округ 197: Лобанов (2-й) vs. Бальмонт (3-й)

Совсем другой график! Гораздо более похожий на то, что я ожидал увидеть. Единственное, что смущает -- горбик на графике отношения вечером воскресенья. Оказывается, однако, что так ведут себя графики по всем 15-ти округам. Первое и второе место ведут себя похоже на график Попов-Лобанов, а второе и третье -- на график Лобанов-Бальмонт! Убедиться в этом можно самостоятельно запустив Jupyter Notebook или скачав графики с github. Давайте посмотрим ещё на пару округов.

Округ 207: Белых (1-я) vs. Ульянченко (2-й)
Округ 207: Белых (1-я) vs. Ульянченко (2-й)

 Округ 207: Ульянченко (2-й) vs. Павлинов (3-й)
Округ 207: Ульянченко (2-й) vs. Павлинов (3-й)

Может быть, это только у коммунистов так? Давайте посмотрим на округ, по которому баллотировалась Брюханова, выдвинутая "Городскими проектами Варламова и Каца".

Округ 198: Хованская (1-я) vs. Брюханова (2-я)
Округ 198: Хованская (1-я) vs. Брюханова (2-я)
Округ 198: Брюханова (2-я) vs. Звягинцев (3-й)
Округ 198: Брюханова (2-я) vs. Звягинцев (3-й)

Выводы

Итак, графики "золото-серебро" и "серебро-бронза" кардинально отличаются друг от друга во всех округах. Более того, судя по всему, если сравнивать между собой любую пару мест, не включающую победителя, графики отношения гистограмм получаются похожими -- колеблющимися вокруг константы, но иногда с небольшим горбом или, наоборот, впадиной под вечер воскресенья. Случаются и выбросы, но обычно ночью, когда голосов совсем мало и закон больших чисел работает плохо.

Графики "золото-серебро" очень похожи между собой: пик в 8 утра пятницы, затем плавное падение, снова горб утром субботы, затем довольно существенный горб утром воскресенья, а затем резкая впадина (в ней отношение бывает даже меньше одного) после 14:00 воскресенья (этот последний интервал загадочен ещё и тем, что он проявляется на графиках "серебро-бронза" и других попарных сравнениях).

Исходя из какой модели можно объяснить такое гладкое и систематическое поведение графика "золото-серебро" во всех округах, я пока не понимаю. Поэтому развитие идей и дальнейший анализ горячо приветствуется!

Комментарии (18)


  1. LuggerMan
    24.09.2021 12:52

    Кхм. Графики времени абсолютно одинаковые по форме на глаз. Что и логично, временное распределение зависит от распорядка дня. Ваша спекуляция на графиках соотношений не выдерживает никакой критики. Аномалий здесь не вижу, как и «КАРДИНАЛЬНЫХ РАЗЛИЧИЙ».


    1. mixalonok
      25.09.2021 18:28

      Ну ты же нагло врёшь...


      1. LuggerMan
        29.09.2021 12:19

        И что ты тут нарисовал? Треугольники какие-то, прямоугольники. По-человечески можно?


  1. Mox
    24.09.2021 13:02
    +2

    Насколько я знаю, в пятницу утром требовали электронного голосования от бюджетников. Не требовали конкретного кандидата, просто требовали максимально рано проголосовать, не откладывая.


    1. solntsepek
      28.09.2021 16:21

      Потом переголосовали бюджетников "как надо" жуликам. Потом поняли, что бюджетников не хватает и стали валить не стесняясь. Потом "набрали" сколько надо и голосование некоторое время было "честным" (в воскресенье после обеда).

      Вооруженный захват и удержание власти, ст. 271 УК, до 20 лет лишения свободы.


  1. Alexufo
    24.09.2021 13:03
    +14

    Перепроверьте лучше обед.

    image

    Действительно ли только электорат едра всегда уходит на обед, причем только в этом году, а электорат других кандидатов голосует и без обеда?


    1. LuggerMan
      24.09.2021 13:07

      Вот это уже прикольнее! За другие партии такой же графичек, чтобы исключить возможность лежалости сервиса на это время и уже пойдет


      1. Alexufo
        24.09.2021 15:03

        сервис не лежал, это называется вбросы, вбросами — а обед по расписанию.


        1. LuggerMan
          24.09.2021 16:22
          +3

          Без

          За другие партии такой же графичек
          не репрезентативно, увы.


          1. Alexufo
            19.10.2021 20:08

            легко найти — естественно там это отсутсвует


            1. LuggerMan
              21.10.2021 11:34

              Ну выложи, будь человеком!


  1. konoplinovich
    24.09.2021 13:26
    +2

    А нельзя ли для графиков с отношениями (первое/второе etc.) сделать одинаковую шкалу по оси ординат, от 0 до 10, например, или сколько там максимум? Было бы понятнее.


    1. lionwing Автор
      24.09.2021 19:36

      Согласен, в единой шкале было бы понятнее. Я сейчас готовлю продолжение, где отчётливей высвечу именно эти отношения.


  1. qyix7z
    25.09.2021 10:58

    Я ждал сравнение золото — бронза.


  1. starpeer
    25.09.2021 13:54
    +2

    Более 300 лет развития математической статистики и теории вероятностей: Паскаль, Бернулли, преподобный сер Томас Байес, Марков, Колмогоров, Фишер, Пирсон. Центральная предельная теорема, непараметрические критерии, скорость сходимости, скрытые марковские модели, случайные процессы, глубокое и не очень машинное обучение, а мы смотрим на цветные графики и слушаем, что нам говорит интуиция....


  1. ctocopok
    25.09.2021 18:29

    Мне кажется, отношения лучше было вывести не гистограммами, а просто линиями. И на одном графике совместить 1-2 и 2-3 места, тогда различия, наверное, были бы нагляднее.


    1. lionwing Автор
      25.09.2021 18:31

      Ваша правда, в следующей части всё постараюсь учесть.


  1. Dan_Te
    25.09.2021 22:34
    +2

    Итак, графики "золото-серебро" и "серебро-бронза" кардинально отличаются друг от друга во всех округах.

    Аналитика уровня "бог" :)
    На глазок они и правда отличаются, но сравнивать лучше, оцифровав это какими-нибудь метриками.

    Мне, вообще, не очевидно, что из этих графиков следуют вбросы. Графики странные, но надо все-таки всегда стараться найти какие-нибудь простые объяснения, для этого нужно относиться к данным безразлично, неангажированно, а мне по тональности показалось, что вы искали подтверждение вбросам.

    Кстати, там есть интересный провал в абсолютах в вск в 13:00 у ЕР-кандидатов. Потыкав в графики на гитхабе, я его далеко не на всех графиках увидел, но на многих он есть. Интересно, что это такое и как это можно объяснить.