Без Фортуны, богини удачи, не обходились ни одно сражение, ни одна экспедиция или начинание, ни одна победа. Боги и люди молили ее быть на их стороне, строили посвященные ей храмы. И проклинали за изменчивость и непостоянство, но продолжали молить. За тысячелетия имена многих богов забылись, немногие остались на страницах фэнтезийных романов и марвеловских комиксов. Но и сегодня не найдется на планете человека, который не просил бы удачу улыбнуться ему. Боги умерли, их заменили наши знания. Богиню плодородия заменили удобрения, Посейдона — прогноз погоды, богиню любви — порноиндустрия. Даже Афина, богиня разума, растворилась в знаниях. Но удаче продолжают молиться все. Живучесть богини объясняется просто, она воплощает один из фундаментальных законов нашей реальности.

В отличии от знаменитого Е=мс2 или закона сохранения энергии, этот закон не так распиарен и странно называется: центральная предельная теорема. А для непосвященных ее определение и вовсе звучит загадочно: сумма многих слабо связанных величин, имеет распределение близкое к нормальному. Тем не менее, это утверждение определяет то, как из прошлого получается будущее в макромире, в мире где мы живем. Более того, оно определяет какими мы будем — высокими или низкими, толстыми или худыми, глупыми или умными.

Выглядит нормальное распределение вероятности событий как перевернутый колокол (уж не обессудьте за мои художественные способности):

Что означает — есть события маловероятные, они по краям распределения. А есть обычные события; они как раз составляют основную часть распределения. Так вот, если вы надеялись не умереть во время пандемии от ковида, то вы просили фортуну поместить вас в середину распределения, а если мечтали об большом выигрыше, то просили удачу поместить в конец распределения. Но богиня не подчинялась даже могущественным богам, а людские просьбы ее тем более мало волнуют. Поэтому и мы отвлечемся от вечного человеческого нытья, и рассмотрим поподробнее то, как нормальное распределение формирует наши тела и наши способности.

Нормальное распределение практически универсальный закон природы и встречается буквально везде. Будете ли вы подсчитывать размеры песчинок или вероятности выпадения чисел на костях или изучать броуновское движение, всегда будет получаться нормальное распределение. Можно сказать, что нормальное распределение вшито в физику нашего мира. Аналогично обстоят дела и в биологии; что бы вы не считали рост человека или количество волос на хвосте льва всегда будет получаться нормальное распределение. Может показаться что распределение у живых определяется внешними случайными факторами, но стоит приглядеться повнимательнее, как оказывается, что все не так просто (вообще‑то полезно повнимательнее присматриваться, казалось бы, к простым вещам, часто за ними кроется много интересного). За нормальным распределением у живых стоят нетривиальные генетические механизмы. Наши гены, уже на заре эволюции поняли, насколько ненадежна и переменчива удача и сумели разработать механизмы, компенсирующие непредсказуемость будущего.

Давайте повнимательнее приглядимся к нам любимым, например посмотрев в зеркало. Что мы можем увидеть на лице? В глаза сразу бросается два глаза, расположенных по горизонтальной линии. Расстояние между глазами вариативно внутри человеческой популяции, у кого‑то они близко поставлены, у кого‑то широко расставлены. Статистически они будут распределены по нормальному распределению. Но у нас не бывает шести глаз или одного глаза, глаза не расположены друг над другом, не растут на ладонях или на пупке. Понятно почему это так, с глазами на пупке долго не проживешь и не успеешь оставить потомство. Но такие мутанты и не рождаются, что означает гены умеют держать свою вариативность под контролем. Гены жестко фиксируют одни параметры, а другим позволяют быть вариативными. Что означает, наша изменчивость не только результат воздействия случайных внешних факторов, а регулируется генетически.

Ещё более наглядный пример — половой диморфизм. (Дабы меня не обвинили в злостном антифеминизме, здесь и далее обсуждается половой диморфизм бабуинов. Любые совпадения с человеками случайны.) Если мы возьмем распределение некоего параметра, например уровня IQ отдельно для самок и отдельно для самцов, то окажется что мужское распределение с более широкими краями (признаюсь, я не знаю пытались ли измерять IQ у бабуинов).

Что означает, бабуины с наибольшим и наименьшим параметром — это самцы. По любому параметру будут такие же результаты: самые умные и самые глупые — это самцы, самые бородатые и самые безбородые — это самцы, самые лопоухие и безухие — это самцы. И кстати, поэтому смертность среди новорожденных и нерожденных у самцов выше в несколько раз. А у самок разброс по параметрам наименьший, они очень консервативны. И это касается не только человеческой популяции, практически у всех живых организмов, у которых два пола, наблюдается подобный диморфизм (конечно есть исключения). Вернее, у тех организмов, у которых наблюдается половой диморфизм, будет наблюдаться аналогичная картина.

Главный приоритет у самок обеспечивать сохранение популяции, поэтому они должны быть максимально приспособленными к текущей ситуации. Произвести яйцеклетку стоит очень дорого, намного дороже чем сперматозоиды. Соответственно основная генетическая функция самцов обеспечивать разнообразие популяции. Они элементарно дешевле в производстве и воспроизведении. Даже если останется один единственный самец в популяции, он сможет обеспечить ее восстановление. Поэтому самцы более расходный материал. Если внешние факторы будут способствовать какой‑нибудь особенности самцов, например лопоухости, то благодаря такому распределению ролей за несколько поколений все станут лопоухими. Фактически самцы тянут всю популяцию в сторону максимальной приспособленности к изменениям во внешней среде. Вышесказанное означает, что дисперсия распределения сцеплена с полом организма, что опять же подтверждает утверждение, что нормальное распределение у живых обусловлено генами, а не результат случайных внешних воздействий.

Главный вопрос, каким образом реализуется этот механизм среди популяции? Кто решает кто какого будет роста? Как определяется кому достанется счастливый билет, а кому не очень? Нужно понимать, что нет никакой корреляции между организмами, гены каждого из нас независимо определяют параметры нашего тела и тем не менее, по итогу, все мы выстраиваемся вдоль гаусовской кривой. По‑видимому, где‑то в глубине нашего организма реализован механизм аналогичный генератору псевдослучайных чисел. Механизм этот сложный и мы только подступили к его изучению, пока нет ясности какие процессы в клетках могут отвечать за него. Но есть предположения.

Думаю, многие обращали внимание, что стоит углубиться в изучение какого‑нибудь процесса в генах, как все становится сложным и запутанным. На любой процесс постоянно действует множество факторов, влияющих и зависящих друг от друга. Например, процесс производства соматотропина (гормон роста). Гены, ответственные за его производство, расположены в 5 соседних участках 17 хромосомы. Так что одновременно могут печататься несколько копий. При этом две из них отличаются от остальных (видимо предназначены для специфических органов). Казалось бы, все просто. Но, не тут‑то было. Чтобы запустился процесс транскрипции соматотропина, множество разных факторов молекул, должны провзаимодействовать. Один запускает процесс, другой тормозит его, но запускает третий процесс, который вызывает каскад реакций, четвертая из которых блокирует второй фактор, а шестая ускоряет первый и тп и тд. Причем каждый из этих процессов влияет еще на что‑то. И все они дублируются и переплетаются самым загадочным образом. Причем многие факторы производятся в других клетках или расположены на других хромосомах. А еще не забываем, что соматотопин состоит из 191 аминокислоты и их всех нужно соединять и укладывать в 3D в правильном порядке. И смотришь на это все и думаешь какой гений составлял сей сложный код реализации?

Однако сложность эта намеренная и код этот действительно гениальный. Во‑первых, сложность выполняет функцию фильтра, который отсеивает случайные сигналы. А во‑вторых, она сама генерирует необходимую случайность. Именно она обеспечивает с одной стороны постоянство форм организмов, а с другой стороны их вариабельность.

Тут внимательный читатель скажет, про мутации и разные там гены с аллелями мы в школе проходили и их комбинаторика понятна. Но только вот гены — это участки ДНК, кодирующие белки. Все, что мы учили про мутации, касаются как раз структуры белков. Но только вот кучи белков недостаточно, чтобы построить организм. Помимо этого, еще нужно знать какие белки в какое время в каком месте и в каких количествах производить, а потом еще их выстраивать в правильном порядке. За данный процесс отвечает остальная часть ДНК, которую вначале назвали мусорной. Это так называя мусорная ДНК составляет 80–95% всего кода и определяет какими в итоге мы получимся (конечно же совместно с внешними условиями). Соответствующая наука называется эпигенетикой.

Вернемся к главному вопросу, как получить нормальное распределение? Возьмём шестигранный кубик и будем его бросать. Бросающий выступает в роли генератора случайных чисел. Вероятность выпадения любого числа одинаковая и равна 1/6. Но стоит нам взять два кубика картинка меняется теперь есть маловероятные события (2 или 12) и более вероятные (7). Чем больше у нас кубиков и чем больше на них граней, тем больше наше распределение будет приближаться к нормальному. Если у нас один человек бросает все кубики между ними может быть корреляция, связанная с бросающим. Чтобы этого избежать возьмем несколько человек и каждому дадим по одному кубику. Более того разведем их по разным углам вот так пусть бросают. Бросающие и является нашим генератором случайных чисел. То есть если у нас есть несколько несвязных факторов (кубики), результат которых неким образом учитывается вместе (не обязательно быть простому суммированию), то мы получили в итоге результат, близкий к нормальному распределению.

Думаю, аналогия понятная и, по‑видимому, в генах процессы реализованы подобным образом. Несколько факторов независящих друг от друга в итоге будут давать нужное распределение. И чем больше этих факторов и чем больше они разнесены друг от друга, тем более конечный результат будет ближе к нормальному распределению.

Другой вопрос, почему вариабельность раз она определяется генетически реализует именно нормальное распределение, а не какое‑нибудь другое? Возможно, когда появились первые клетки, распределение могло быть произвольным. Но так как именно нормальное распределение наиболее адекватно отражает реальность, оно жестко прописалась в генах. Есть частые внешние события, а есть редкие и случаются они согласно нормальному распределению. Невыгодно держать много особей, приспособленных под редкие события, они плохо приспособлены к текущей ситуации. Поэтому, всегда нужно большинство середнячков, а по краям пусть будут гении и дураки. Причем последние могут поменяться местами если внешние условия поменяются. И обеспечат приспособление всей популяции к новым условиям. Гены нашли правильный ответ на вопрос: как всегда выигрывать в казино? Нужно стать владельцем казино и самому генерировать случайности. И эта стратегия позволяет жизни существовать на нашей планете последние 4 миллиарда лет, невзирая ни на какие случайности и катастрофы.

Если вам повезло, и вы оказались на правильном конце распределения, это не благодаря вам, а благодаря удаче, которая вытащила вам выгодный билет. Гордиться своими способностями — это то же самое что гордится своим высоким ростом, в этом нет никакой заслуги индивидуума. Природа — бережливая старушка, она никогда ничего не выкидывает, и поэтому всегда будут рождаться низкие и высокие, худые и толстые, умные и глупые. Если вам повезло, и вы родились с подходящим для сегодняшней ситуации набором параметров, значит кто‑то другой оказался на другой стороне распределения. Это фундаментальный закон природы. Мы не можем его поменять, но мы можем протянуть руку помощи тем, кому в данный момент не везет. Ведь мы не знаем, что будет завтра, а фортуна очень своенравная девушка с черным юмором.

Комментарии (5)


  1. linuxcore
    14.04.2023 06:48
    +1

    а на основе чего дказыветс эта теорема? есть что-то еще более глубинное и загадное?


  1. kichrot
    14.04.2023 06:48
    +1

    ... сумма многих слабо связанных величин, имеет распределение близкое к нормальному. ...

    Да, абсолютно ВСЁ случайное объективно является абсолютно закономерным. :)

    Случайность в науке, это непознанная закономерность.

    Абсолютный детерминизм объективной реальности рулит. :)


    1. piuzziconezz
      14.04.2023 06:48
      +2

      Как бы экспериментально доказано, что это не так и случайность фундаментально не является непознанной закономерностью. См. теорема Белла.


      1. kichrot
        14.04.2023 06:48

        ... экспериментально доказано ... случайность фундаментально не является непознанной закономерностью ...

        Вы не правы, объективно невозможен эксперимент объективно доказывающий абсолютную беспричинность, так как любое доказательство, по определению, основано на закономерности и выявляет закономерности. :)

        Абсолютная беспричинность и абсолютная произвольность объективно не может иметь доказательств, в силу своей абсолютной беспричинности и абсолютной произвольности.

        Именно по этой причине, в основании науки лежит принцип причинности и абсолютного детерминизма.

        Абсолютная беспричинность и абсолютная произвольность, это бог, понятие которого основано не на доказательстве, а на вере. :)

        Вам следует изучить диамат и логику, как философские основы науки, которые Вы не знаете. :)


  1. adeshere
    14.04.2023 06:48

    Как практикующий перемалыватель данных и физик, хочу уточнить и дополнить вот это утверждение автора: "Нормальное распределение практически универсальный закон природы и встречается буквально везде". По-моему, и само это утверждение, и иллюстрирующие его примеры в статье - это очень серьезная

    идеализация реальности

    Я в курсе, что К.Ф.Гаусс жил несколько раньше, но все же подозреваю, что еще лет сто лет назад сама идея нормального распределения для многих была откровением. И хотя у меня нет сомнений, что эта идея стала серьезным научным прорывом, и что пиетет по отношению к ней имеет совершенно объективные основания в виде многочисленных научных достижений и результатов, однако у всего есть свои ограничения и области применимости. Сегодня, когда мы обрабатываем огромные массивы данных и временные ряды, уже стоит задуматься об этих границах. С точки зрения моего скромного имхо, эти границы сейчас не просто лежат у нас под ногами, но в некоторых предметных областях и вовсе давным-давно пройдены..

    Безусловно, в математике есть много прекрасных моделей (включая и ЦПТ), которые "...неверны, но полезны" (с). Но используя эти модели, надо отчетливо осознавать, что это лишь приближения, которые более или менее хорошо описывают реальность. Причем неожиданно часто - гораздо менее хорошо, чем можно было предполагать априори.

    Некоторые мои знакомые математики в ответ возражают, что раз так - то тем хуже для этой реальности. Но если работаешь с экспериментальными данными, то ситуация однозначна с точностью до наоборот. Как только мы накапливаем достаточно большие объемы данных, чтобы суметь диагностировать умеренные (или слабые) отклонения от нормальности, нормальное распределение

    становится миражом

    Ну или горизонтом который, как известно, "есть воображаемая линия, которая по мере приближения к ней удаляется" (с). Как говорится, нет здоровых людей, - есть недообследованные

    И это вполне объяснимо с точки зрения физики: в реальной жизни случайные величины, входящие в сумму, очень часто все-таки связаны. Либо среди них есть те, которые вносят преобладающий вклад в результат. Либо просто есть значимая автокореляция текущих состояний системы с более ранними (это наиболее частый случай в моей работе). Этим практическая жизнь отличается от идеальных моделей.

    Наиболее яркое тому подтверждение - это фликкер-шум, который тотально доминирует во всех геофизических явлениях и процессах, и далеко не только в них. Понятно, что ни о какой нормальности в этом случае речь не идет. Даже если просто добавить к измерениям любой нормально распределенной случайной величины самый незначительный тренд (т.е. небольшую добавку, растущую пропорционально номеру измерения), нормальность немедленно исчезает. Много ли вы знаете строго стационарных природных процессов (речь не о матмоделях, понятно)? Я вот не знаю ни одного...

    То же самое и с песчинками или биологическими объектами. Пока у Вас есть полсотни особей (экземпляров объектов), и чувствительности критерия хи-квадрат (или любого другого) невелика, распределение еще может сойти за нормальное. Увеличьте статистику хотя бы на порядок - и чтобы вписаться в доверительные границы нормальности, вам уже придется мучительно придумывать объяснения, почему вот этот и вот этот объекты - особенные, и их надо из выборки исключить. А еще вот этот, и вот этот, а также вот эти вот все... Чтобы в оставшейся очищенной выборке критерий все-таки допускал возможность нормальности.

    А если Вы увеличите число объектов еще на порядок, то там, скорее всего, станут понятны и механизмы, которые эти отклонения от нормальности генерируют. Хотя, конечно, в разных предметных областях численные критерии будут различны.

    Да что далеко ходить за примерами.

    Возьмите стандартный физический (чтобы не упереться в цикл повторения ГПСЧ в компьютере) генератор нормально распределенных случайных чисел и сгенерируйте выборку из нескольких тысяч значений. Почти наверняка она будет идеалом нормальности. А теперь оставьте его поработать день-два, чтобы значений стало несколько миллионов, и загрузите этот массив в пакет статистического анализа. Подозреваю, что результат может неприятно удивить некоторых людей с незамутненным складом характера, которые искренне верят в светлые истины математических идеализаций.

    Понятно, что оценка "миллион точек" зависит от конкретного генератора и принципов его устройства. Иногда может понадобиться больше точек, иногда меньше... но результат будет один. Я сам впервые столкнулся с этим эффектом, анализируя радиоактивный распад. Точек там было значительно меньше миллиона, зато продолжительность работы установки - несколько месяцев. По результатам стат-ана у пациента диагностирован фликкер-шум...

    На всякий случай уточню,

    что именно к ядерным реакциям претензий нет ;-) Но вот засунуть всю установку вовнутрь сферического коня в вакууме организаторам эксперимента не удалось... Так что она, несмотря на все ухищрения, все-таки реагировала на сугубо земные процессы, влиявшие на эффективность регистрации. И это - конструкция, которая находилась в стабилизированных лабораторных условиях. Что уж тогда говорить про биологические явления, где о нестабильности внешних условий даже не надо забывать, так как никому в здравом уме изначально не придет в голову считать их фиксированной константой?

    В сухом остатке: безусловно, при определенных достаточно специфических условиях нормальное распределение - это очень неплохая модель, весьма полезная с точки зрения практики. Однако как только Вы начинаете работать с тысячами и более измерений (а не десятками), эта модель очень часто начинает расходиться с реальностью. А для многих явлений такое расхождение становится очевидным уже при первых десятках значений в выборке, вплоть до катастрофического при большем числе отсчетов. Поэтому я бы крайне не советовал принимать гипотезу нормальности в качестве базовой априорной модели при анализе данных, если только Вы не убедились заранее в исключительности Вашего объекта изучения, которая делает такое допущение адекватным.

    И во-вторых, я бы крайне не советовал формально выбраковывать из наблюдений те точки, которые "выскакивают" из гауссиана. Конечно, иногда они могут быть ошибками измерений, и тогда их выбраковка оправдана. Но в огромном множестве случаев это вовсе не брак, а следствие неадекватности модели нормальности для данного типа явлений. Есть целые предметные области, где именно эта (вторая) гипотеза должна быть принята априори в качестве базовой.

    P.S. Желаю всем осторожности, адекватности и удачи при анализе данных. А главное, не забывайте слова великого Джоржда Бокса о том, что "все модели неверны, но некоторые из них полезны" ;-)