Данная статья является ответом на вот эту статью (Анализ результатов президентских выборов 2018 года. На федеральном и региональном уровне).

В той статье меня удивила фраза автора:
Вместо нормального или логнормального распределения мы видим интересную кривую, с очень странными пиками на круглых значениях (70%, 75%, 80% и т.д.), возрастающую на около-100% явке и уходящей далеко вверх на 100%.
Сразу возникают вопросы:

  • Почему автор считает, что вместо «странных» пиков должно быть нормальное или логнормальное распределение?
  • Почему вообще пики считаются «странными»?
  • Откуда могут появиться «естественные» пики на круглых значениях?

Та статья сильно политизирована и комментарии в ней соответствующие. В этой статье мы будем обсуждать только математику, поэтому политические взгляды попрошу держать при себе.

А в качестве бонуса, в конце статьи будет выложен ключ к решению загадки «круглых чисел» на графике выборов 2018.

Исходные данные


Файл БД (MongoDB) с результатами голосования (парсинг с гос. сайта), который был выложен автором исходной статьи:

Файл = 15-04-18.tar.xz
MD5 = 3a1c198cbc4ce102fbc074752fc0ca99

Мы будем исследовать график зависимости процента явки и количества УИКов с данной явкой. В исходной статье он выглядит так:



Вступление


Все желающие могут скачать БД и самостоятельно проверить на наличие ошибок. Мной из полученной БД были случайным образом выбраны и проверены данные по нескольким УИКам, что позволяет с некоторой вероятностью утверждать, что данные были загружены с гос. сайта корректно.

Но, есть некоторые замечания:
Автор исходной статьи пока не дал пояснений, по заданным вопросам:

1. По какой формуле вы считали % явки на каждом уике?

2. Поясните пожалуйста назначение атрибутов share и number_bulletin.

3. Каким образом округлялись значения до 0.1%?
Но, по структуре БД видно, что скорее всего, атрибут number_bulletin является самостоятельно рассчитанным параметром определяющим кол-во избирателей включаемых в «явку», а share – это процент явки, рассчитанный по формуле

share = number_bulletin / results_0;

где results_0 – это «Число избирателей, включенных в список избирателей».
На станицах гос. сайта атрибутов number_bulletin и share нет.

Странность заключается в том, что в БД number_bulletin не всегда считается корректно (с точки зрения официального расчета кол-ва людей принявших участие в выборах).

А именно, официальная формула такая:

  • Число бюллетеней, выданных на участке +
  • Число бюллетеней, выданных вне участка +
  • Число бюллетеней, выданных досрочно

В БД number_bulletin в большинстве случае совпадает с этой формулой, но при этом есть и множество УИКов, где number_bulletin отличается, от приведенной выше формулы на кол-во 1-2 и больше бюллетеней, причем закономерности я не увидел.

Вот выборка с примером и hash-ключами УИКов, чтоб можно было быстро найти в БД:

Порядок атрибутов в строке:

ID — ключ УИК
RESULTS_0 – поле results.0 из БД («Число избирателей, включенных в список избирателей»)
TEST_NUMBER_BULLETIN – рассчитанное значение по формуле
RESULTS_NUMBER_BULLETIN — значение в БД
TEST_YAVKA — рассчитанное значение по формуле
RESULTS_SHARE — значение в БД

5ab557a2866a6a69f2cf8c90 2241 1368 1367 0,610441 61
5ab557aa866a6a69f2cf8ca8 2853 1665 1662 0,583596 58,25
5ab557b1866a6a69f2cf8cba 2138 1413 1412 0,660898 66,04
5ab557b1866a6a69f2cf8cbb 2093 1291 1290 0,616817 61,63
5ab557b3866a6a69f2cf8cc2 2463 1688 1687 0,685343 68,49
5ab557b5866a6a69f2cf8cc7 1583 1085 1084 0,685407 68,48
5ab557b9866a6a69f2cf8cd7 1483 912 911 0,614969 61,43
5ab557ba866a6a69f2cf8cdb 2166 1403 1402 0,647737 64,73
5ab557bb866a6a69f2cf8cdd 2186 1204 1203 0,550777 55,03
5ab557bc866a6a69f2cf8ce1 1574 986 985 0,626429 62,58
5ab557bd866a6a69f2cf8ce5 1284 803 802 0,625389 62,46
5ab557bd866a6a69f2cf8ce6 2543 1610 1608 0,63311 63,23
5ab557bf866a6a69f2cf8ced 2215 1353 1350 0,610835 60,95
5ab557cf866a6a69f2cf8d36 1627 1374 1372 0,844499 84,33
5ab557f7866a6a69f2cf8dbd 449 262 261 0,583518 58,13
5ab557f8866a6a69f2cf8dbf 597 349 347 0,584589 58,12
5ab55809866a6a69f2cf8dfa 194 156 155 0,804123 79,9

Таким образом, если обсуждаемый график строился автором из БД с использованием значения share – то этот график не соответствует официальному варианту расчета явки. Но, я допускаю возможность, что данные атрибуты использовались автором в тестовых целях и приведенный им график построен без использования текущих значений share из БД.

В любом случае, все графики данной статьи строятся по официальным формулам и не используют вышеописанные атрибуты.

Официальная формула расчета явки:

  • Число бюллетеней, выданных на участке +
  • Число бюллетеней, выданных вне участка +
  • Число бюллетеней, выданных досрочно

Все графики в данной статье построены по следующим параметрам:
Явка на каждом уике = формула приведенная выше

Округление до ближайшего целого:

10.2 => 10
10.5 => 11

Округление до первого знака после запятой и последующих..:

0.22 => 0.2
0.25 => 0.3

Визуализация #1


Давайте посмотрим на графики с визуализацией кол-ва УИК по проценту явки, дополнительно добавив линию со средним размером УИК, чтобы проверить возможную корреляцию:

График_1а:

Ось Х – Процент явки (интервал = 1%)
Ось Y(левая) – Количество УИК
Ось Y(правая) – Средний размер одного УИК (кол-во зарег. избирателей)



Видно, что на точке X=100 значение очень высокое, а средний размер УИК при этом уменьшается. В обсуждении fediq высказывалось логичное предположение:
Высокая явка — нормальное явление для высокоорганизованных УИКов типа традиционных общин, режимных учреждений, военных частей.
В качестве подтверждения, давайте посмотрим на первые 10 регионов по кол-ву УИК со 100% явкой:

K_ALL — кол-во УИК в регионе
K_100 — кол-во УИК со 100% явкой
REGION — название региона

K_ALL K_100 REGION
393 346 foreign-countries
1580 213 primorsk
1911 165 dagestan
482 156 sakhalin
596 138 murmansk
2817 132 tatarstan
2052 128 st-petersburg
317 123 kamchatka_krai
948 67 arkhangelsk
854 60 khabarovsk


График_1б:

Ось Х – Процент явки (интервал = 0.1%)
Ось Y(левая) – Количество УИК
Ось Y(правая) – Средний размер одного УИК (кол-во зарег. избирателей)
+ Не выводится точка 100%, т.к. с ней остальные значения слишком мелкие.



Появились те самые пики на круглых значениях.

График_1в:

Ось Х – Процент явки (интервал = 0.01%)
Ось Y(левая) – Количество УИК
+ Не выводится точка 100%, т.к. с ней остальные значения слишком мелкие.



Как и ожидалось с уменьшением шага кол-во пиков увеличивается и они расположены по всему графику.

График_1г:

Ось Х – Процент явки (интервал = 0.001%)
Ось Y(левая) – Количество УИК
+ Не выводится точка 100%, т.к. с ней остальные значения слишком мелкие.



Как мы видим весь график в пиках, т.е. на данном масштабе – пики это нормальное явление.

График_1д:

Ось Х – Процент явки (интервал = 0.001%)
Ось Y(левая) – Количество УИК
Увеличенная область для значения 80%



Видим, что рядом с круглым 80% много мелких значений.

Визуализация #2


Теперь давайте посмотрим на те же самые графики, но под другим углом. Так как расположенные рядом друг с другом на графике по оси X точки (процент явки) ни чем не связаны (в каждую такую точку-выборку попадают совершенно разные УИКи с различным гео-положением, размером и настроением избирателей и т.п...), то разницы в каком порядке они стоят нет, поэтому отсортируем их по оси Х не по возрастанию процента явки, а по возрастанию кол-ва УИКов.

Т.е. на графиках выше мы видели, как при возрастании процента явки ведет себя кол-во УИК, а на данном графике мы увидим, как при возрастании кол-ва УИК ведет себя процент явки.

График_2а:

Ось Х – номер точки из БД по порядку
Ось Y(левая) – Количество УИК
Ось Y(правая) – Процент явки (интервал = 1%)



Это тот же самый график, который приведен выше, но ось X (белый цвет) теперь перенесена на Ось Y(правая) и отображается в виде отдельной линии, Ось Y(левая) так же как и раньше отображает кол-во УИК, а на оси X теперь отображается просто номер выборки из БД (номер точки по оси X по порядку).

Пояснение

Точке по оси X с номером 60 соответствует:
процент явки = 95
кол-во УИК = 1680

График_2б:

Ось Х – номер точки из БД по порядку
Ось Y(левая) – Количество УИК
Ось Y(правая) – Процент явки (интервал = 0.1%)
+ Не выводится точка 100%, т.к. с ней остальные значения слишком мелкие.



Давайте найдем на этом графике нашу круглую точку 80% (обведена красным кружком), которая на графике выше выглядела как пика с мелкими значениями вокруг себя.

Здесь она уже выглядит менее вычурно на линии с точками близкими ей по значению процента явки (желтые кружки).

График_2в:

Ось Х – номер точки из БД по порядку
Ось Y(левая) – Количество УИК
Ось Y(правая) – Процент явки (интервал = 0.01%)
+ Не выводится точка 100%, т.к. с ней остальные значения слишком мелкие.



А вот это уже интересно, те, кто разбирается в математике уже наверно начинают понимать в чем фишка. А точку 80% уже не различить, т.к. на этом масштабе она уже не видна.

График_2г:

Ось Х – номер точки из БД по порядку
Ось Y(левая) – Количество УИК
Ось Y(правая) – Процент явки (интервал = 0.001%)
+ Не выводится точка 100%, т.к. с ней остальные значения слишком мелкие.



А этот график – просто откровение. Можно даже посчитать кол-во ступенек в каждом периоде…

Ключ к решению загадки круглых чисел


Ну и в качестве бонуса, любителям «конспиралогии» и математических ребусов посвящается:

PROCENTX KOLVO X2 X5 X10
25 2 2 0 0
40 5 2 5 2
45 3 3 3 3
50 70 70 15 15
55 10 10 10 10
60 108 57 108 57
65 34 34 34 34
70 57 57 57 57
75 140 140 29 29
80 122 62 122 62
85 36 36 36 36
90 78 78 78 78
95 64 64 64 64
100 2613 1370 582 324


Это красивая закономерность, которую я обнаружил в «круглых цифрах».
Суть в том, что начиная с точки 40% и далее с шагом 5% количество УИК всегда кратно 2, 5 или 10. Собственно таблица выше это отображает.

PROCENTX – процент явки
KOLVO – общее кол-во УИК ровно с данным процентом без каких-либо округлений
X2 – количество УИК в которых кол-во зарег. избирателей кратно 2
X5 – количество УИК в которых кол-во зарег. избирателей кратно 5
X10 – количество УИК в которых кол-во зарег. избирателей кратно 10

Далее, я решил проверить кратность с шагом 1…

PROCENTX KOLVO X2 X5 X10
25 2 2 0 0
34 1 1 1 1
36 1 1 1 1
40 5 2 5 2
42 1 1 1 1
44 2 0 2 0
45 3 3 3 3
46 1 1 1 1
47 1 1 1 1
48 2 0 2 0
50 70 70 15 15
51 3 3 3 3
52 7 4 7 4
53 4 4 4 4
54 4 4 4 4
55 10 10 10 10
56 10 6 10 6
57 5 5 5 5
58 9 9 9 9
59 4 4 4 4
60 108 57 108 57
61 3 3 3 3
62 18 18 18 18
63 1 1 1 1
64 23 10 23 10
65 34 34 34 34
66 14 14 14 14
67 8 8 8 8
68 22 10 22 10
69 2 2 2 2
70 57 57 57 57
71 4 4 4 4
72 17 5 17 5
73 6 6 6 6
74 8 8 8 8
75 140 140 29 29
76 23 11 23 11
77 4 4 4 4
78 10 10 10 10
79 2 2 2 2
80 122 62 122 62
81 10 10 10 10
82 14 14 14 14
83 6 6 6 6
84 24 11 24 11
85 36 36 36 36
86 10 10 10 10
87 3 3 3 3
88 23 8 23 8
89 4 4 4 4
90 78 78 78 78
91 4 4 4 4
92 31 17 31 17
93 6 6 6 6
94 13 13 13 13
95 64 64 64 64
96 25 11 25 11
97 6 6 6 6
98 17 17 17 17
99 4 4 4 4
100 2613 1370 582 324

Получается, что такая закономерность соблюдается кроме 100 на всех целых числах (в которых имеется ровно целое значение, если целого значения нет – оно в списке пропущено).

Ну и напоследок, общее разбиение по кратности количества зарегистрированных избирателей x2-10 для всех УИК:

KOLVO X2 X3 X4 X5 X6 X7 X8 X9 X10
97699 49413 32753 24724 20283 16649 13923 12464 10917 10411


KOLVO – общее кол-во УИК в которых проводились выборы
X2-10 – количество УИК в которых кол-во зарег. избирателей кратно 2-10

И общее разбиение по кратности пришедших на выборы избирателей x2-10 для всех УИК:

KOLVO X2 X3 X4 X5 X6 X7 X8 X9 X10
97699 49268 32712 24634 20608 16492 14085 12192 10938 10752


KOLVO – общее кол-во УИК в которых проводились выборы
X2-10 – количество УИК в которых кол-во пришедших избирателей кратно 2-10

Ну, а дальше обычно в таких случаях математики пишут… решение тривиально :)

Update:

Заключение


Как ни странно, но моя статья оказалась довольно двусмысленна для тех, кто присоединился к обсуждению без чтения основной статьи на которую делался ответ и дискуссии, которая там велась. Поэтому добавлю здесь пояснения, в виде ответов на поставленные мной вопросы в начале статьи.

Почему автор (исходной статьи) считает, что вместо «странных» пиков должно быть нормальное или логнормальное распределение?
— Ответа я так и не получил.
Но, мое мнение такое — ожидать что, на графике голосования (где участвует разумный выбор) должно быть обязательно нормальное или логнормальное распределение — не верно.

Почему вообще пики считаются «странными»?
— В исходной статье на это была версия «Зато это можно объяснить тем, что при фальсификации председатели предпочитали комиссий брать «круглые» цифры процентов.», а так же «Потому, что я не вижу естественных причин их появления на круглых числах.»

Откуда могут появиться «естественные» пики на круглых значениях?
— Это уже был мой вопрос самому себе, для решения которого я просил автора исходной статьи выложить файл БД для возможности анализа.

Собственно эта статья на него и отвечает — по графикам График_1в, График_1г мы видим — что наличие пиков на обсуждаемом графике — вполне естественно, а причина их появления кроется в дроби
количество_избирателей_пришедших_на_выборы / количество_избирателей_зарегистрированных_на_участке

Значение которой имеет более высокую вероятность оказаться «круглым» чем другие, это подтверждается данными из раздела «Ключ к решению загадки круглых чисел»

P.S.
Да и еще, в виду отрицательной кармической ситуации не могу отвечать сразу всем на комментарии в статье, поэтому кому пока не ответил извините :)

Комментарии (34)


  1. staticlab
    24.04.2018 01:40
    +1

    Суть в том, что начиная с точки 40% и далее с шагом 5% количество УИК всегда кратно 2, 5 или 10.

    45% (3) и 70% (57) показывают, что это не так.


    И всё-таки, хотелось бы услышать от вас, какова математическая природа пиков на круглых значениях? Каким образом можно смоделировать естественный ход голосования так, чтобы результаты были аналогичны фактическим?


    1. mat300
      24.04.2018 04:26
      +1

      Объяснение явно не в плоскости математики/статистики. Тут вообще не исследование, а натягивание совы на глобус.


    1. mayorovp
      24.04.2018 07:01
      +2

      Не могу найти старый пост который это объясняет, но он где-то был. Такие пики в «круглых» значениях возникают для рациональных дробей когда и числитель и знаменатель — случайны.

      К примеру, точку 79% можно получить только как число вида 79x/100x, а точку 80% — как число вида 4x/5x. Поэтому попаданий во вторую точку всегда будет больше чем в первую.


      1. San_tit
        24.04.2018 07:22
        -1

        Вы правы, но только при условии того, что подавляющее большинство уиков будет с крайне малой численностью, т.е. такой на которой ещё не работает статистика.
        Но если это так, то вообще имеет смысл говорить о некорректности методики проведения измерений (выборов) как таковых, а не на подтасовках в ходе измерений.
        (Ну не может быть тайного независимого голосования, когда весь участок, включая комиссию и наблюдателей состоит из 10-15 человек)


        1. mayorovp
          24.04.2018 07:42

          Не вижу причин по которым это должно перестать работать на больших числах.


          1. chersanya
            24.04.2018 16:07
            +1

            Ну вот попробуйте просто график построить.

            n = 1000000
            counts = (np.random.rand(n) * 1000 + 1000).astype(int)
            visits = ((np.random.rand(n) * 0.3 + 0.6) * counts).astype(int)
            fracs = visits / counts
            plt.hist(fracs, bins=1000);

            Результат:
            image
            Пиков на круглых значениях по сути нет.
            Для сравнения вместо 1000 ставим 20:
            image


            1. mayorovp
              24.04.2018 16:17

              Все дело в bins=1000. Заметьте: на графике 1а тоже нет никаких аномалий! Но автору это оказалось мало, он начал уменьшать интервал… Попробуйте пойти по его стопам и повысить bins :-)


              1. chersanya
                24.04.2018 16:24

                А зачем ещё уменьшать? Давайте сравнивать с последним более-менее разумным графиком из этого блока в посте — где шаг 0.1% (как ниже написали, меньше смысла брать уже нет). У меня же шаг ещё несколько меньше.


                1. mayorovp
                  24.04.2018 16:28

                  Как зачем? Чтобы найти аномалии и закричать что такованидалжнобыть! :-)


            1. Sabubu
              25.04.2018 12:23

              Я и другие пользователи пробовали строить графики с псевдослучайным числом избирателей и проголосовавших, и никаких пиков, сравнимых с графиком с выборов, там нету. Код и графики: telegra.ph/Proverka-gipotezy-o-estestvennom-poyavlenii-pikov-na-kruglyh-znacheniyah-yavki-04-01 (ссылка на веб-прокси).


              1. chersanya
                25.04.2018 13:07

                Так я вроде абсолютно это и написал. Или вы как раз подтверждаете?


                1. Sabubu
                  25.04.2018 13:52

                  Я дополняю, так как там есть ссылки на код, которым можно строить графики, а также графики, построенные с разными параметрами.


                  1. chersanya
                    25.04.2018 14:29

                    Да, тогда полностью поддерживаю :)


      1. akryukov
        24.04.2018 09:01

        Приведение всех данных к общему знаменателю устраняет такой эффект?


        1. mayorovp
          24.04.2018 09:29
          +1

          Нет, значения же от этого не изменятся. А вот округление (или, что то же самое, укрупнение шага) должно помочь. К примеру, на первом графике (1а), который с интервалом 1%, никаких аномалий не видно.


      1. zuwr2t
        24.04.2018 09:08
        +4

        Третий по величине пик должен попадать на не рациональный 2/3(66,(6)%). Но у нас вместо него пики на 13/20(65%) и 7/10(70%). Маловероятно.
        Автор статьи так аккуратно обошел кратность трем.


        1. mayorovp
          24.04.2018 09:32

          В районе значения 66% просто знаменатели достаточно большие, пик от этого сгладился. Но посмотрите на график с интервалом в 0,01% (1в) — там самый крупный пик именно в той точке которую вы указали.


          1. shukshinivan
            24.04.2018 13:09

            Автору нужно было просто вспомнить идею 2011 года, добавив к каждому числу рандомное float-значение в районе 0.5 с кучей знаков после запятой, сразу уходят проблемы целочисленного деления. Эта ошибка сводит на нет всю статью, в которой, впрочем, и так ничего стоящего нет.


      1. Sabubu
        25.04.2018 12:24

        Это только для маленьких знаменателей. На участках порядка 1500-2000 избирателей, и на таких цифрах целые отношения маленьких чисел теряются в шуме.


    1. FreeMind2000 Автор
      25.04.2018 01:49

      45% (3) и 70% (57) показывают, что это не так.
      Вы видимо не прочитали легенду для столбцов в таблице. Приведу еще раз:
      PROCENTX – процент явки
      KOLVO – общее кол-во УИК ровно с данным процентом без каких-либо округлений
      X2 – количество УИК в которых кол-во зарег. избирателей кратно 2
      X5 – количество УИК в которых кол-во зарег. избирателей кратно 5
      X10 – количество УИК в которых кол-во зарег. избирателей кратно 10

      45 3 3 3 3
      Означает, что всего есть 3 УИК у которых явка ровно 45%. При этом из них 3 — кратны 2, 3 кратны 5, 3 — кратны 10. Т.е. упрощенно — у всех 3х УИК с явкой 45% кол-во зарегистрированных избирателей заканчивается на 0 (поэтому все они одновременно кратны 2, 5 и 10). Тоже самое и для 70 57 57 57 57.

      Еще для примера:
      80 122 62 122 62
      Означает что всего есть 122 УИК ровно с явкой 80%, 62 кратно 2, 122 кратно 5, 62 кратно 10, т.е. кол-во зарег.избирателей во всех 122 УИКах заканчивается либо на 5 либо на 0.

      25 2 2 0 0 — здесь ровно с 25% два УИК и оба они кратны только 2м.

      И всё-таки, хотелось бы услышать от вас, какова математическая природа пиков на круглых значениях?
      Я добавил в конец статьи раздел «Заключение», там есть пояснения по этому поводу.


      1. staticlab
        25.04.2018 12:03

        Ну так исправьте в статье фразу


        Суть в том, что начиная с точки 40% и далее с шагом 5% количество УИК всегда кратно 2, 5 или 10.

        на


        Суть в том, что начиная с точки 40% и далее с шагом 5% количество зарегистрированных избирателей в УИК всегда кратно 2, 5 или 10.


      1. Sabubu
        25.04.2018 12:28

        > Означает, что всего есть 3 УИК у которых явка ровно 45%.

        Потому что ровно 45% будет только для соотношения 9/20. То есть для участков где число избирателей кратно 20. Вы рассматриваете только эти участки с круглыми числами и естественно число на них будет кратно 2, 5 и 10. Но на графике с выборов в бин 45% попадают участки с явкой от 44.95% до 45.05%. Например, участок с соотношением 451/1003 = 0,4497. А участок с соотношением 452/1003 = 0,4506 попадает в соседний бин. Вы такие участки выкинули из рассмотрения.


  1. shukshinivan
    24.04.2018 10:12

    Первое впечатление (простите, напишу сразу, до разбора сути) — Вы как будто забыли методы анализа из далёкого 2011 года. С дробями научились бороться уже тогда, добавлением случайного числа порядка 0.5 вроде random(0.1, 0.9), которое большим числом знаков после запятой просто убирает проблему дробей.

    Ну и второе - шаг в 0.01% смотрится странно
    Ну и второе — шаг в 0.01% смотрится странно, учитывая, что обычно участок размером 1-2тыс избирателей, и ниже 0.1% брать ошибочно, т.к. число избирателей — целое число (чуть подробнее о сути по ссылке про 62.22% в Саратове), и уменьшением шага на порядок ниже целочисленного избирателя просто убирает все эффекты «рисований», сглаживая их в 10 раз.


    1. shukshinivan
      24.04.2018 10:34

      Возьмите шаг 0.0001%, и вообще сгладите всё до шума. Схема неустойчива к постоянному уменьшению шага, т.к. надо либо помнить о том, что характерный step 0.1% (~1 человек), либо считать «от обратного», как по ссылке, перебирая процент, а не людей.


      1. FreeMind2000 Автор
        24.04.2018 17:49
        -2

        Возьмите шаг 0.0001%, и вообще сгладите всё до шума. Схема неустойчива к постоянному уменьшению шага, т.к. надо либо помнить о том, что характерный step 0.1% (~1 человек), либо считать «от обратного», как по ссылке, перебирая процент, а не людей.
        Факты говорят об обратном, я проверял шаги до 0.000001% включительно, после 0.001% картина на графике существенно не меняется, все пики которые есть на График_1г с шагом 0.001% (включая мелкие) остаются. К тому же, вы наверно не заметили, но все графики в статье как вы выражаетесь «перебирают» процент явки. В визуализации 1 — мы сортируем результат по возрастанию процента, а в визуализации 2 — по возрастанию кол-ва УИК, но группировка всегда идет по проценту явки с заданным шагом.

        С дробями научились бороться уже тогда, добавлением случайного числа порядка 0.5 вроде random(0.1, 0.9), которое большим числом знаков после запятой просто убирает проблему дробей.
        Я не вижу ни какой «проблемы» с дробями, а тем боле необходимости добавлять «мусор» в исходные данные. В данной статье показано то, как выглядят реальные данные при уменьшении шага и то, что пики — это вполне естественные вещи на графике, а так же, есть подсказка для понимания откуда берутся пики на круглых значения.

        Вот еще одна подсказка:

        Если включить «математическое», а не «конспиралогическое» мышление, то всё довольно просто.

        Посмотрите на График_1д, и задайтесь вопросом, почему в окрестности с круглым значением 80% есть «пустая воронка»? Я вам подскажу, что такие воронки есть и на других «круглых» значениях. Посмотрите на График_2г и задайтесь вопросом, откуда могут появиться такие ступеньки?

        Вспомните из школьного курса математики, что такое дробь и освежите знания в теории вероятности, посмотрите на данные по распределению кратности из раздела данной статьи «Ключ к решению загадки круглых цифр», тогда все станет на свои места. Если вам лень этим заниматься — то извините, ничем помочь не могу, в заголовке статьи написано «Решаем загадку», а не «Подсматриваем ответ в конце учебника». Я думаю, что многим на хабре эта математическая «загадка» будет интересна.


        1. shukshinivan
          24.04.2018 17:51

          Вы вообще какую-то чушь пишите, простите. Проблема дробей решается простым рандомным добавлением мелкого числа. Всё. Добавляйте и смотрите на пики.


          1. shukshinivan
            24.04.2018 17:54

            Загадку про дроби решили в декабре 2011 года, я вот о чём хочу сказать. И ещё с 2011 года все делают графики с рандомной добавкой, чтобы не тратить время и силы на дроби и видеть реальные пики. «Мусор» не искажает вид кривых, зато полностью убирает проблему дробей.


            1. FreeMind2000 Автор
              24.04.2018 18:54
              -1

              Вы вообще какую-то чушь пишите, простите. Проблема дробей решается простым рандомным добавлением мелкого числа. Всё. Добавляйте и смотрите на пики.
              Простите, а может это вы пишите чушь? :)
              В статье всего лишь показаны графики и реальные данные иллюстрирующие естественность появления пиков на «круглых» значениях. Вы здесь что-то хотите возразить?

              Я не знаю что там было в декабре 2011, но если у вас есть какие-то предложения по другим способам визуализации и исследованию графика, давайте ссылку на метод, посмотрим, и если есть смысл, можно будет поэкспериментировать.


              1. mayorovp
                24.04.2018 19:46

                Если бы статья и правда иллюстрировала естественность появления пиков — у вас бы не спросили о их происхождении в первом же комментарии. Я вот, к примеру, из статьи сделал вывод что вы нашли в этих пиках какой-то заговор и решили поделиться этой находкой.


                1. FreeMind2000 Автор
                  24.04.2018 21:01

                  Серьезно? :))
                  Если вы почитаете исходную статью, на которую писался ответ и мои комментарии в ней, то увидите, что всё ровно наоборот (почитайте, там реально интересная дискуссия). Данная статья как раз-таки и была написана, что бы показать, что «странность» и «аномалии» найденные в пиках вполне естественны и не связаны с «любовью фальсификаторов к круглым значениям», как там многие утверждали. Собственно именно по этому в своей статье я и решил уменьшить шаг с 0.1% (как в исходной статье) до 0.01% и ниже, чтобы показать, что пики это нормальное явление для обсуждаемого графика.

                  Но, своим выводом о данной статье, вы меня прям поразили :) Здесь я старался излагать только факты и без каких-либо интерпретаций, чтобы не разводить полит.срач, (как в исходной статье), а вести дискуссию с точки зрения математики.

                  Похоже, надо добавить раздел «Заключение» с пояснениями.


  1. xFFFF
    24.04.2018 11:25
    +3

    Автор подогнал расчеты)))))


  1. chersanya
    24.04.2018 16:25

    Можете нормально сформулировать, что именно вы хотите показать графиками 2а, 2б? Непонятен вывод из них. Можно же привести кучу способов изобразить эти данные, где не то что аномалий, самих результатов особо не видно будет — и что?


  1. Sabubu
    25.04.2018 12:18
    +1

    Хотелось бы поблагодарить вас за попытку анализа. К сожалению, статья у меня вызвала больше вопросов, чем ответов, которые хотелось бы задать.

    > Видно, что на точке X=100 значение очень высокое,… В качестве подтверждения, давайте посмотрим на первые 10 регионов по кол-ву УИК со 100% явкой.

    Вопрос 1. Здесь нужно пояснение, я не понял, что подтверждает приведенный ниже список городов. Было бы хорошо не оставлять недосказанности и либо закончить мысль, либо убрать это утверждение. На зарубежных участках да, явка 100% не вызывает удивления, так как там могли включать в списки только тех, кто пришел, и число изб. в списках потому совпало с пришедшими.

    Вопрос 2. Оранжевая линия и пики на ней на графике 1б вызывают интерес, но не очень понятно, о чем они говорят. Может быть, стоит взять несколько крупнейших пиков (а также их окрестность) и просто проанализировать участки, которые в них входят?

    Вопрос 3. Я не понял, в чем смысл графиков 2а-2г, вы на них переставили бины так, что все пики вжаты в правый край, а не-пики, низкие места — слева. Для чего это? Что это должно показать? Что обозначает белая ломаная на них?

    Вопрос 4. По графикам 2в и 2г, где видна интересная белая ломаная — было бы хорошо, если бы вы прояснили свою мысль, а не оставляли загадку:

    > А вот это уже интересно, те, кто разбирается в математике уже наверно начинают понимать в чем фишка.

    Я, к сожалению, ничего не понял.

    И, наконец, есть вопросы к разделу «Ключ к решению загадки круглых чисел». Начнем с того, что в x2 попадет не менее половины всех УИК, так как половина чисел — четные.

    > Это красивая закономерность, которую я обнаружил в «круглых цифрах».
    > Суть в том, что начиная с точки 40% и далее с шагом 5% количество УИК всегда кратно 2, 5 или 10.

    Я даже могу объяснить, почему. Потому что ровно 95% может получиться только при соотношении 19/20 = 19*n / 20*n, где n — целое, а это значит, что число избирателей в списках должно быть кратно 20. И, следовательно, все УИК с процентом явки 95% попадут в колонки x2, x5, x10.

    Однако, это нельзя считать «объяснением» пиков. Так как на графике с бином 0.1% в пик на 80% попадают УИК с явкой от 79.95% до 80.05%. В этот диапазон, например, попадут отношения 801/1001, 802/1002, 802/1003, 803/1004 и так далее, которые не «круглые». Вы выкинули их и оставили только участки с «круглым» числом избирателей.

    Аналогично, для цифр вроде ровно 90% знаменатель будет кратен 10, для цифры 80% кратен 5 итд.

    Приведенная вами таблица не доказывает и не опровергает наличия пиков. Так как вы выбрали для нее исключительно УИК с круглым числом избирателей, а в пики входят и участки с не-круглым числом. Для сравнения, я и другие пользователи пытались построить график для случайно выбранных количеств избирателей и проголосовавших, и никаких заметных пиков там нету. Графики и исходный код я собрал в статье: telegra.ph/Proverka-gipotezy-o-estestvennom-poyavlenii-pikov-na-kruglyh-znacheniyah-yavki-04-01 (если не открывается, открыть через веб-прокси).

    Вопрос 5. Не могли бы вы, пожалуйста, перестроить таблицу с учетом этого факта? Иначе вы рассматриваете не все участки в стране, а выбираете из них только участки с круглым (кратным 5-10-20) числом избирателей и по таким участкам делаете выводы об общей картине.

    Также, на исходном графике видны пики в областях не очень круглых чисел вроде 81%, 92%, 93%, 94%, 96%, 97%, 98%, 99%. Для них вы отобрали только участки с числом избирателей, кратных 50 или 100. Вы выкинули из рассмотрения участки, где, например, 1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008 и 1009 избирателей.

    Или у вас есть данные, которые говорят, что таких участков с «круглым» числом избирателей было значительно больше «некруглых» и «некруглые» можно не принимать в расчет?

    > по графикам График_1в, График_1г мы видим — что наличие пиков на обсуждаемом графике — вполне естественно, а причина их появления кроется в дроби количество_избирателей_пришедших_на_выборы / количество_избирателей_зарегистрированных_на_участке

    Я это проверял, и на псевдослучайных числах (случайное число избирателей и число пришедших, код и графики в статье выше) таких заметных пиков нет, и пики не тяготеют к круглым значениям. Более того, если убрать из рассмотрения маленькие участки, меньше 500 человек, из результатов выборов, пики на круглых числах остаются. Попробуйте построить графики без УИК до 500 человек.

    В заключение, приведу свое объяснение «пиков». Преположим, что УИК делятся на 2 группы: а) УИК, где считают честно, либо присутствуют наблюдатели, следящие за подсчетом и б) УИК, где результат фальсифицируется. Предположим, что участки из группы б) координируются местными властями города или региона. Предположим, что власти спускают на эти участки «желаемую» цифру явки, в разных районах,
    городах и регионах разную. Члены УИК, переведя процент в число человек, видят некруглое, выглядящее случайным, число, и вписывают его в протокол. Однако при статистическом анализе такие цифры дают пики на графике.

    Если у вас сложности с комментированием, можете написать в личку — обязуюсь опубликовать ваш ответ без изменений.


  1. FreeMind2000 Автор
    26.04.2018 00:07

    chersanya
    Sabubu

    Можете нормально сформулировать, что именно вы хотите показать графиками 2а, 2б? Непонятен вывод из них. Можно же привести кучу способов изобразить эти данные, где не то что аномалий, самих результатов особо не видно будет — и что?
    Вся статья задумывалась как некая загадка, которую можно решить если использовать логику и минимум математических знаний. Само решение, благодаря подсказкам в виде графиков и данных «ключа», на мой взгляд, казалось настолько очевидным, что большинству читателей потребуется минимум усилий, чтобы понять о чем речь. Но, теперь ясно, что это не так, и как говорится телепатов нет, и эта «загадочность» больше путает, чем помогает понять смысл статьи.

    Вот дополнительные пояснения (я буду нумеровать тезисы, чтобы можно было на них ссылаться в случае несогласия):

    Графики 2абвг строились для визуализации моей мысли о том, что три точки стоящие рядом друг с другом по порядку на графиках 1абвг — между собой никак не связаны.

    Т.е. например 79,80,81 — включают в себя совершенно разные по параметрам УИКи (размер, гео-расположение, разумность избирателей) и никакой прямой связи между этими точками нет, т.е. допустим пика на 80 относительно 79 и 81 пикой является только в силу того, что на числовой прямой эти числа стоят рядом и дополнительной смысловой нагрузки не несет. Т.е. нет никакой «обязательности» в том, чтобы изменения значения процента явки между этими точками было всегда ниже некого субъективного порога, выше которого это изменение можно назвать «пикой». Упрощенно – наличие пик на графиках 1бвг, вызывает у некоторых читателей субъективное чувство «не естественности», т.к. они видят, что в других местах график выглядит более гладко, это происходит из-за некоего подсознательного ожидания нормального распределения функции на графике. Но такое ожидание является заблуждением. Для иллюстрации этого заблуждения и были показаны графики 2абвг. Суть этих графиков в том, что отображают они ровно одни и те же данные, что на графиках 1абвг, но кол-во субъективных «аномалий» сильно отличается.

    Графики 2абвг отсортированы не по возрастанию процента явки, как 1абвг, а по возрастанию кол-ва УИКов. Естественно, пики по количеству УИКов пропали, они идут по возрастанию, но теперь появилась ломаная кривая (белого цвета), на которой мы и будем искать «пики». Т.е. мы пытаемся найти «аномалии» на другой визуализации одних и тех же данных.

    Давайте посмотрим на График_2а (шаг 1%):
    В зависимости от субъективного выбора и наших ожиданий на графике, мы можем, как обнаружить здесь «аномалии», так и считать что их нет.
    Их нет, если посмотреть по линии 56% или 68% и т.п… то все колебания (нижние, верхние пики рядом с этими линиями) особо не выделяются.
    Они есть, если мы будем использовать логику «аномалий» из графика 1абвг, где «аномальность» формулировалась вопросом «Как может быть так, чтобы явка X% была на большом кол-ве УИК, а (X-1)% и (X+1)% на маленьком?», то здесь «аномальность» формулируется вопросом «Почему в точке X – с N кол-вом УИКов высокий процент явки, а в точках (X+1) и (X-1) (в которых N+1 и N-1 не сильно отличаются от N) процент явки гораздо ниже?»

    И в наличии и в отсутствии аномалий есть некая логика, давайте посмотрим, куда она нас заведет дальше.

    График_2б (шаг 0.1%):
    Здесь, если мы считали, что на График_2а – нет аномалий, мы в этом дополнительно убеждаемся. Это показано на примере линии с 80%, если на график_1б 80% — это одинокая пика, то здесь рядом с линией 80% есть еще множество значений близких к 80% (отмечены желтыми кружками).

    А вот если мы придерживаемся понятия «аномальности» для графиков 1бвг, то здесь у нас вообще всё в пиках и одна сплошная «аномальность» никаких «гладких» мест на линии белого цвета практически нет.

    Таким образом, в зависимости от способа визуализации и выбранного критерия «аномальности», мы можем придти к двум совершенно противоположным выводам.

    График_2в (шаг 0.01%):
    На этом масштабе интересен тот факт, что по оси X уже выводится достаточно много точек, чтобы увидеть, как изменяется процент явки для УИКов с одинаковым количеством зарегистрированных избирателей. Внутри каждой уже достаточно широкой ступеньки располагается некое распределение явки и это распределение уже можно сравнивать между разными ступеньками. В комментарии к графику я дал намек на то, что любители математики должны явно заметить вид периодической функции и некую «аномалию» из-за того, что в ней меняется ширина периода (согласен, так себе был намек :).

    График_2г (шаг 0.001%):
    Ну… а здесь я просто откровенно прикололся, показав, что «аномалии» можно буквально создавать из воздуха. На графике – реальные данные, и если проверить значения каждой точки – все честно, при этом мы видим явно «искусственные» ступеньки, которые должны безапелляционно «доказывать», что выборы «нарисованы».
    На самом деле секрет прост. На нашем графике сортировка идет по количеству УИКов, и на одной ступеньке (фиолетовый цвет) мы видим множество УИКов, каждому из которых соответствует свой процент явки (на белой линии), так вот, все ступеньки идут по возрастанию, а что происходит внутри ступенек? А внутри ступенек мы можем делать, все что угодно. На предыдущем графике мы внутри ступенек отсортировали УИКи по возрастанию у них процента явки… и получилась, такая изогнутая плавно возрастающая линия. А здесь сортировка внутри ступенек вообще была отключена и они выводились на график в той последовательности, в которой хранятся в БД (бинарное дерево или что-то вроде того), что привило к рисованию таких вот ступенек процента явки (на белой линии).

    Ну и собственно мой первый тезис:

    Тезис 1:
    От выбранного способа визуализации зависит количество некой субъективной «аномальности» на графике. Причем, всё зависит от того, что мы понимаем под «аномальностью». Пики на графике 1бвг – субъективно некоторыми людьми считаются «аномальностью» лишь из-за «геометрической» близости точек с высоким и низким значением (без какого-либо доказательства, что таких пиков на графике быть не должно), замечу еще раз, что кроме «геометрической» близости между этими точками никакой связи нет. Грубо говоря, мы можем сортировать их всё новым, и новым способом находя всё новые и новые «геометрические» аномалии, которые не несут в себе никакой смысловой нагрузки. Вот когда появится доказательство, что пиков на какой-то визуализации быть не должно, а они там есть – вот тогда, такая визуализация имеет смысл.

    Теперь пояснения по графикам 1абвг:

    Здесь мы разбираем тот вариант, когда за «доказательство» на запрет появления пиков выдается «не знание способа, как эти пики могут появиться естественным путем». Т.е. для некоторых людей, появление пиков на круглых значениях – очень маловероятное событие и кроме как вмешательством «конспиралогических» факторов необъяснимое.

    График_1а (шаг 1%):
    Это базовый график, на котором нет «аномалий».

    График_1б (шаг 0.1%):
    Это график, в котором автор исходной статьи обнаружил и показал «аномальные» пики на круглых значениях. И да, действительно, если на этой визуализации следовать логике «геометрической» близости точек и ожидать нормального распределения, то пики – это анамалия.

    График_1в (шаг 0.01%):
    Здесь мы уменьшаем шаг и уже видим гораздо больше пиков, причем они разбросаны по всему графику. О чем это говорит? Что мы обнаружили еще больше аномалий? Или может для данного графика пики просто сами по себе являются нормальным явлением?

    График_1г (шаг 0.001%):
    Ну, тут ответ на вопрос выше очевиден – весь график состоит из пик, значит либо весь график – аномалия, либо пики – это нормальное (естественное) явление для данной визуализации, и значит бездоказательно считать, что пики на графике График_1б «аномалия» — это ошибка. Ибо утверждать, что пики маловероятны мы уже не можем.

    Тезис 2:
    На графиках 1абвг – просто утверждение, что пики «маловероятны» — не является доказательством «аномальности» пиков, так как на График_1а их нет, а на всех последующих График_бвг с уменьшением шага их становится всё больше и больше.

    Ну и собственно разгадка пиков на круглых значениях:

    По графикам График_1в, График_1г мы видим — что наличие пиков на обсуждаемом графике — вполне естественно, а причина их появления кроется в дроби:

    количество_избирателей_пришедших_на_выборы / количество_избирателей_зарегистрированных_на_участке

    Значение которой имеет более высокую вероятность оказаться «круглым» чем другие, это подтверждается данными из раздела «Ключ к решению загадки круглых чисел».

    Визуально, подсказка на это дается в графике График_1д, где видно пустую воронку вокруг значения 80%.

    Входные данные для задачи:

    1. По таблице мы видим, что в точки для всех «круглых» значений процента явки – попадают только УИКи в которых кол-во зарег. избирателей кратно 2,5 или 10.

    2. Далее приведены таблицы с данными по кратности 2,3,4,5,6,7,8,9,10 для всех УИКов
    по кол-ву пришедших на выборы избирателей (числитель)
    и
    по кол-ву зарег. избирателей (знаменатель)

    Ну а дальше, можно посчитать вероятности по появлению интересующих значений, но это я уже оставляю на откуп читателям статьи. Если кому-то нужно, могу привести больше данных по кратности.

    Еще просто для справки:
    Минимальный размер (кол-во зарег.избирателей) УИКа = 3 чел
    Максимальный = 7746 чел

    P.S.
    Sabubu
    Ваши вопросы понятны, на часть из них я ответил в данном комменте, на оставшиеся отвечу позже.