Я решил проанализировать распределение голосов за разных кандидатов по времени. Для этого я взял 2 млн. расшифрованных бюллетеней (опять же, спасибо @Peter_Zhizhinза ссылку) и сопоставил их с данными о транзакциях. Получилось отображение (время голосования -> id кандидата). Здесь использована база из .sql-дампа с observer.mos.ru, чуть подробнее про неё было в упомянутой статье.
Примерный код на PostgreSQL
-- Таблицы и колонки названы неудачно, простите
CREATE table decrypted_choices (
tx_store_hash character varying(64),
decoded_vote bigint);
COPY decrypted_choices
FROM '//path/to/decoded_votes_manual.csv' WITH (FORMAT csv);
CREATE table vote_times (
datetime timestamp with time zone,
vote bigint);
insert into vote_times (datetime, vote)
select transactions.datetime, decrypted_choices.decoded_vote as vote
FROM transactions
inner join decrypted_choices
ON transactions.hash = decrypted_choices.tx_store_hash;
\o vote_times.jsonl
COPY
(SELECT ROW_TO_JSON(t) FROM(select * from vote_times order by datetime) t)
TO stdout;
Далее я стал рисовать графики для пар кандидатов (код в ноутбуке). Для этого я брал по каждому округу трёх кандидатов, набравших максимальное число голосов, и рисовал попарное соотношение их результатов: 1-го ко 2-му и 2-го к 3-му. Например, в округе №197 распределение голосов среди медалистов такое: Попов -- 50420, Лобанов -- 30034, Бальмонт -- 8144. Берём результаты Попова и Лобанова. Разобьём всё время голосования на 70 равных интервалов и посчитаем, сколько каждый из кандидатов набрал в этот промежуток. Получится пара гистограмм, которые мы изобразим на одной картинке. Также давайте посчитаем отношение результата Попова к результату Лобанова на каждом интервале (то есть получим отношение гистограмм). Чего мы ожидаем от этих графиков? Интуитивно кажется, что так как случайные величины "время, когда избиратель проголосовал" и "кандидат, за которого отдан голос" практически независимы, то второй график (отношение гистограмм) должен колебаться вокруг константы. Проще говоря, странно, если в условном интервале 08:30-09:00 в воскресенье проголосует 700 человек за Лобанова и 1300 за Попова, а в интервале 15:30-16:00 -- наоборот: 600 за Лобанова и 300 за Попова. Но это интуиция, а что на самом деле?
Выглядит очень странно, как по мне. Но может быть, у меня какая-то неправильная интуиция? Давайте сравним Лобанова и Бальмонта (бронзового медалиста).
Совсем другой график! Гораздо более похожий на то, что я ожидал увидеть. Единственное, что смущает -- горбик на графике отношения вечером воскресенья. Оказывается, однако, что так ведут себя графики по всем 15-ти округам. Первое и второе место ведут себя похоже на график Попов-Лобанов, а второе и третье -- на график Лобанов-Бальмонт! Убедиться в этом можно самостоятельно запустив Jupyter Notebook или скачав графики с github. Давайте посмотрим ещё на пару округов.
Может быть, это только у коммунистов так? Давайте посмотрим на округ, по которому баллотировалась Брюханова, выдвинутая "Городскими проектами Варламова и Каца".
Выводы
Итак, графики "золото-серебро" и "серебро-бронза" кардинально отличаются друг от друга во всех округах. Более того, судя по всему, если сравнивать между собой любую пару мест, не включающую победителя, графики отношения гистограмм получаются похожими -- колеблющимися вокруг константы, но иногда с небольшим горбом или, наоборот, впадиной под вечер воскресенья. Случаются и выбросы, но обычно ночью, когда голосов совсем мало и закон больших чисел работает плохо.
Графики "золото-серебро" очень похожи между собой: пик в 8 утра пятницы, затем плавное падение, снова горб утром субботы, затем довольно существенный горб утром воскресенья, а затем резкая впадина (в ней отношение бывает даже меньше одного) после 14:00 воскресенья (этот последний интервал загадочен ещё и тем, что он проявляется на графиках "серебро-бронза" и других попарных сравнениях).
Исходя из какой модели можно объяснить такое гладкое и систематическое поведение графика "золото-серебро" во всех округах, я пока не понимаю. Поэтому развитие идей и дальнейший анализ горячо приветствуется!
Комментарии (18)
Mox
24.09.2021 13:02+2Насколько я знаю, в пятницу утром требовали электронного голосования от бюджетников. Не требовали конкретного кандидата, просто требовали максимально рано проголосовать, не откладывая.
solntsepek
28.09.2021 16:21Потом переголосовали бюджетников "как надо" жуликам. Потом поняли, что бюджетников не хватает и стали валить не стесняясь. Потом "набрали" сколько надо и голосование некоторое время было "честным" (в воскресенье после обеда).
Вооруженный захват и удержание власти, ст. 271 УК, до 20 лет лишения свободы.
Alexufo
24.09.2021 13:03+14Перепроверьте лучше обед.
Действительно ли только электорат едра всегда уходит на обед, причем только в этом году, а электорат других кандидатов голосует и без обеда?
konoplinovich
24.09.2021 13:26+2А нельзя ли для графиков с отношениями (первое/второе etc.) сделать одинаковую шкалу по оси ординат, от 0 до 10, например, или сколько там максимум? Было бы понятнее.
lionwing Автор
24.09.2021 19:36Согласен, в единой шкале было бы понятнее. Я сейчас готовлю продолжение, где отчётливей высвечу именно эти отношения.
starpeer
25.09.2021 13:54+2Более 300 лет развития математической статистики и теории вероятностей: Паскаль, Бернулли, преподобный сер Томас Байес, Марков, Колмогоров, Фишер, Пирсон. Центральная предельная теорема, непараметрические критерии, скорость сходимости, скрытые марковские модели, случайные процессы, глубокое и не очень машинное обучение, а мы смотрим на цветные графики и слушаем, что нам говорит интуиция....
Dan_Te
25.09.2021 22:34+2Итак, графики "золото-серебро" и "серебро-бронза" кардинально отличаются друг от друга во всех округах.
Аналитика уровня "бог" :)
На глазок они и правда отличаются, но сравнивать лучше, оцифровав это какими-нибудь метриками.
Мне, вообще, не очевидно, что из этих графиков следуют вбросы. Графики странные, но надо все-таки всегда стараться найти какие-нибудь простые объяснения, для этого нужно относиться к данным безразлично, неангажированно, а мне по тональности показалось, что вы искали подтверждение вбросам.Кстати, там есть интересный провал в абсолютах в вск в 13:00 у ЕР-кандидатов. Потыкав в графики на гитхабе, я его далеко не на всех графиках увидел, но на многих он есть. Интересно, что это такое и как это можно объяснить.
LuggerMan
Кхм. Графики времени абсолютно одинаковые по форме на глаз. Что и логично, временное распределение зависит от распорядка дня. Ваша спекуляция на графиках соотношений не выдерживает никакой критики. Аномалий здесь не вижу, как и «КАРДИНАЛЬНЫХ РАЗЛИЧИЙ».
mixalonok
Ну ты же нагло врёшь...
LuggerMan
И что ты тут нарисовал? Треугольники какие-то, прямоугольники. По-человечески можно?