Любой аналитик, в начале своей работы, проходит ненавистный этап определения идентификации параметров распределения. Потом, с наработкой опыта, для него согласование полученных остаточных разбросов означает, что какой-то этап, в анализе Big Data, пройден и можно двигаться дальше. Уже нет необходимости проверять сотни моделей на соответствие различным уравнениям регрессии, искать отрезки с переходными процессами, составлять композицию моделей. Терзать себя сомнениями: «Может есть, еще какая-нибудь модель, которая больше подходит?»

Подумал: «А что, если пойти от противного. Посмотреть, что может сделать белый шум. Может ли белый шум создать, что-то, что наше внимание сопоставит со значимым объектом из нашего опыта?»


Рис. Белый шум (файл взят из сети, размер 448х235).

По этому вопросу рассуждал так:

  1. Какова вероятность, что появится горизонтальные и вертикальные линии, заметной длины?
  2. Если они могут появиться, то какова вероятность, что они совпадут своим началом по одной из координат и составят прямоугольную фигуру?

Дальше по тексту, объясню, как эти задачи связались с анализом Big Data.

В книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43) обнаружил ссылку на теорему Эрдёша-Реньи, которая звучит так:
При бросании монеты n раз, серия из гербов длины $\log_2{n}$ наблюдается с вероятностью, стремящейся к 1, при n стремящемся к бесконечности.

Для нашего рисунка это означает, что в каждой из 235 строк с вероятностью, стремящейся к 1, найдется:



то есть отбрасываем до целого – 8-ми черных точек подряд по горизонтали.

И для всех 448 столбцов, с вероятностью, стремящейся к 1, найдется:



отбрасывая до целого — 7 черных точек подряд, по вертикали.

Отсюда получаем вероятность того, что в «белом шуме» будет составлен черный прямоугольник размером 8х7 пикселей, для этой картинки:



Где 1 – это первая последовательность из черных точек в строке, в любом месте двумерного пространства.

Не спорю, что вероятность очень маленькая, но не нулевая.

Двигаясь дальше, мы можем соединить, все строки в одну и получим строку, длиной 102 225 знаков. И тогда по теореме Эрдёша-Реньи, с вероятностью стремящейся к 1, существует цепочка, длиной:



А для цепочки из 1 млн.записей:



Как видим, связь теоремы Эрдёша-Реньи, с Big Data, обозначилась однозначно.

Примечание. Далее буду излагать свой собственный анализ выявленного. Так как в той форме, этой теоремы и ее доказательства, которая представлена в книге Г.Секея, мне обнаружить не удалось.

Получаем, что теорема Эрдёша-Реньи, может использоваться тестом, по определению однородности данных.

Она применима к распределениям, имеющим центральный момент первого порядка (МХ).
Она может применяться только к одноканальным последовательным случайным процессам.

Как ее применять


Любое распределение, с матожиданием, мы можем представить, как отклонение от центра: влево-вправо, вверх-вниз. То есть выпадение: орла-решки.

Соответственно, по этой теореме, должен обнаруживаться интервал, в котором последовательные значения, в количестве $m = \log_2{N}$ находятся выше или ниже МХ (Y(xi)).

Примечание. В этом аспекте хотелось увидеть доказательство этой теоремы, чтобы понять существует только один такой подряд (только выше или ниже) или два (выше и ниже). По моим размышлениям, симметричность этих явлений должно порождать два подряда и, с другой стороны, анализируя доказательство похожего процесса, этих математиков, относящееся к графам, то предположил, что они строили доказательство на определении максимума. Что допускает и существование доказательства на минимизации целевой функции. Возникали вопросы о том, как теорема Эрдёша-Реньи выглядит для несимметричных вероятностей, для вариантов более 2.

Практическим следствием обнаружения, только одного, такого последовательного подряда, в исследуемой базе, дает нам возможность допускать, что все представленные данные однородны.
Второе. Если обрабатывая данные, по теореме Эрдёша-Реньи, мы обнаружили, что существует ряд больший по количеству значений, чем он должен быть, то вероятна ситуация, представленная на рисунке.


Представленный на рисунке ряд, составлен как композиция двух функций, для целей примера.

Третье заключение. Если обрабатывая данные (1 млн.записей), по теореме Эрдёша-Реньи, не было обнаружено ни одного ряда длиной 19 номеров, но обнаружилось, допустим, три последовательности с 17 номерами. То можно предположить, что общие данные состоят из композиции трех функций, и по месту этих рядов, определить интервалы в которых, возможно, происходят переходные процессы.

Когда работал над этим материалом, сверсталось наблюдение о следующем. Все, разработанные методы анализа данных, сделаны для технологий, когда, по небольшим естественным наблюдениям, необходимо определить параметры гораздо большей совокупности, по 100 наблюдениям, определить свойства генеральной совокупности объемом 1 млн. или больше. А для современных задач, когда необходимо провести декомпозицию огромной БД, разработанные статистикой инструменты очень трудоемки.

Комментарии (14)


  1. Dotarev
    18.07.2019 07:54

    можно предположить, что общие данные состоят из композиции трех функций

    Более того, статистика может ответить на вопрос, какова вероятность того, что это предположение верно. Физики давно в этом разобрались.


    1. Sistemaalex Автор
      18.07.2019 09:06

      В работе аналитика немного по другому, вот цитата из вашего материала:

      Если статистические погрешности всегда можно обсчитать аккуратно, то систематические погрешности — это немножко искусство. Более того, из многолетнего опыта известно, что сильные систематические отклонения уж точно не описываются нормальным распределением, и потому для них эти правила пересчета не справедливы. Так что даже если экспериментаторы всё перепроверили много раз и указали систематическую погрешность, всегда остается риск, что они что-то упустили из виду.

      Систематическая погрешность при работе с большими данными заключается в том, что повторить опыт получения этих данных и получить их повторно практически невозможно. Так как вернуть, допустим систему ERP крупного предприятия, в состояние, которое соответствовало на дату, допустим, год назад, а потом фиксировать данные работы этой системы следующий год, для сравнения с имеющимися, невозможно. То есть аналитик может расширить, имеющиеся у него данные, но повторить опыт возможности нет. И это уже систематическая ошибка


  1. Sistemaalex Автор
    18.07.2019 12:46

    Задали в личку вопрос: Орлов все-таки, или решек?
    Ответ такой:
    Монете все равно, как мы назовем ее стороны: «решка-орел», «1-0», «аверс-реверс», «герб-лицевая». «Герб» написал так как в книге дается такая формулировка. Так как с этим пытался разобраться, пытаясь найти доказательство в оригинале или переводе и не нашел его, поэтому и акцентировал в примечании. Деталь существенная, так как от того, что они считали максимум или минимум можно понимать, как этот индикатор можно использовать, кроме того что описал.
    По сути мы можем обозначить «1», любую сторону, тогда вторая сторона становится 0.


  1. ignorance
    18.07.2019 23:41

    Спасибо за статью, любопытно.
    Конечно, есть пожелание большей математической строгости.
    Насколько я нашел, исследования Эрдеша и Реньи относятся к случайным графам, и по-видимому, результат с последовательностью орлов длиной log2(n) является следствием более общих.
    Поскольку мы не знаем асимптотику, то считать, что длины цепочек 235 и 448 эквивалентны бесконечности может быть слишком смелым утверждением.
    Кроме того, из приведенного утверждения никак не следует, что нельзя встретить цепочку длиной log2(n) + 1 или что цепочка log2(n) должна быть единственной.


    1. Sistemaalex Автор
      18.07.2019 23:56

      Наверное поэтому и написал этот материал, вдруг кто нибудь обнаружит эту теорему с доказательством и поделиться находкой.
      Возможно там бы, из доказательства, было бы понятно, как обращаться с конечными цепочками, как относиться к цепочкам log2(n)+1. Как понимать, если цепочка log2(n) не единственная. Я привел один пример, но по моим размышлениям этих последствий может быть значительно больше. Об этом в конце намекнул, когда написал, что выработанная практика статистики исследует, с точки зрения доступного человеку объема, такой объем который память не может вместить. И вполне возможно, что если посмотреть на большие данные, с точки зрения их размерности, то обнаружатся такие закономерности, о которые сейчас даже в фантастике не описаны


  1. VDG
    21.07.2019 05:05

    Разъясните, пожалуйста. Если, допустим, в битовой последовательности длиной 448 обнаруживается цепочка из 14-и единиц (выше порога по формуле, равного 8), то говорит ли это о наблюдении чего-то неслучайного?

    Вопрос возник из следующего. Дендритные ветки нейрона можно представить как битовую последовательность. Ветка, а затем и весь нейрон, срабатывает, когда в любом её месте активируется цепочка синапсов. У нейрона есть задача не срабатывать на белый шум, соответственно, минимальная длина цепочки, насколько помню было у Нументы, равна 14 синапсам у пирамидального нейрона с его 10 тысячами синапсов. И по формуле получаем: Log2(10000) = 13,287. То есть, цепочки длиной меньше 14 будут возникать из-за естественного шума, но не будут активировать нейрон. Прямо вот идеально легло.


    1. Sistemaalex Автор
      21.07.2019 07:37

      Еще разбираюсь. На данный момент видно следующее, для вашего случая.
      Признаком белого шума для ряда из 10000 будет появление цепочки из 13 и БОЛЕЕ одинаковых сигналов подряд. То есть, если у Вас сработали 14 синапсов это очень существенный признак, что сигналы являются следствием белого шума. Там, по моим оценкам, вероятности 95% и больше, для ряда из 10000.
      Сейчас пару идей созрело пытаюсь их отработать, чтоб эту задачу привести к нормальному инструменту


    1. Sistemaalex Автор
      21.07.2019 08:12

      По другому скажу. Если в последовательности из 10000 сигналов, НЕ обнаружено НИ ОДНОЙ последовательной цепочки из 14 и более одинаковых сигналов, то это близкий к стопроцентной вероятности признак, что последовательность является НЕ случайной. То есть не белый нум


    1. Sistemaalex Автор
      21.07.2019 08:54

      Наверное, в применении к биологии, можно подобрать модель хищник-жертва. Жертва приходит на поляну, оценивает ситуацию, принимает решение о безопасности. Далее ее нейросистема перекодирует информацию об окружающей обстановке, с ключевыми моментами, а остальное как белый шум. Далее она периодически сопоставляет окружающую картинку с записью. Если образ зафиксирован с большими элементами белого шума, то он требует немного ресурсов, а природа, как мы знаем очень экономна. И тогда, в том образе, много последовательных рядов с одинаковыми сигналами. Когда хищник подкрадывается, то он старается это делать максимально плавно, чтобы изменяющаяся картинка не различалась с образом зафиксированным у жертвы. Если хищник действует неосторожно, то последовательные цепочки в образе жертвы начинают рваться, исчезать. И для жертвы это простой сигнал об изменении окружающей обстановке.
      Это первая модель, которая пришла в голову, чтоб объяснить этот механизм.


  1. Sistemaalex Автор
    21.07.2019 07:37

    Выше ответил


  1. ignorance
    21.07.2019 19:07

    В общем, я не нашел информации о связи модели случайных графов Эрдеша-Реньи с последовательностью выпадения орлов. Хотя это, конечно, не означает, что такой связи не существует в принципе.
    В этой модели рассматривается полный граф, каждое ребро которого существует с вероятностью p, и рассматривается свойство связности полученного графа. Т.е. если сопоставить выбрасыванию орла наличие некоторого ребра в графе, то из связности некоторой компоненты данного графа с k вершинами, вообще говоря, не следует, что у нас есть k выпадений орла подряд.
    Кроме того, если посмотреть краткое описание модели — wiki, то видно, что все результаты получены с точностью O() — т.е. никакими конкретными значениями мы оперировать не сможем.

    Возвращаясь к нашей задаче. Обнаружил заметку на похожую тему — здесь. Хотя там рассматривается задача выпадения последовательности орлов или решек подряд, это не влияет на качественные результаты — цитирую

    Ого, то есть получить семь орлов или решек подряд при ста подбрасываниях не только вполне вероятно, но шансов что выпадет семь или больше вообще около 54%

    Т.е. речь никак не может идти о 100% вероятности.
    Для подсчета разбиений на слагаемые, используемого в заметке, готовой формулы нет, есть реккурентные соотношения — например, здесь первые 2 варианта.
    (Формула Эйлера не подходит, поскольку она даст все разбиения)


  1. ignorance
    21.07.2019 19:37

    Пропустил при чтении статьи

    Третье заключение. Если обрабатывая данные (1 млн.записей), по теореме Эрдёша-Реньи, не было обнаружено ни одного ряда длиной 19 номеров, но обнаружилось, допустим, три последовательности с 17 номерами. То можно предположить, что общие данные состоят из композиции трех функций, и по месту этих рядов, определить интервалы в которых, возможно, происходят переходные процессы.

    Статистика работает немного по-другому. Даже, если бы формула была бы верна, мы не можем сделать вывод, что это не одна последовательность — нам нужно хотя бы 30-50 наблюдений.

    UPD. Собственно, вы об этом пишете ниже. Ну что поделать…


    1. Sistemaalex Автор
      21.07.2019 20:10

      Согласен все это есть сейчас. Так разбираю тему и выскакивает несколько нестыковок. Ну допустим может быть так, что не то, что 30-50 наблюдений, в бигдата, невозможно будет сделать. А даже когда один и тот же процесс, ну допустим в химической промышленности, то есть ставим полностью дублирующую систему мониторинга, в каждой точке наблюдения, стоят по два датчика, датчики идентичны. Один подключен к одной системе мониторинга, а другой к другой. Системы мониторинга идентичны, одно и то же оборудование, одно и то же программное обеспечение, одни и те же параметры фиксируются каждой системой, с единым временем. Но они не пересекаются, то есть нет согласования и передачи данных от одной к другой системе и в центре управления сидят разные операторы. То есть кажется, что данные будут идентичны, но может оказаться так, что даже сопоставлять эти данные нельзя будет. А уж не говоря о том, что выявлять статистику.


    1. Sistemaalex Автор
      21.07.2019 20:11

      Спасибо за участие