Начнем с того, что же такое закон больших чисел. Неформально, это математическая теорема о том, что «вероятность отклонений среднего по выборке от математческого ожидания мала» и что «эта вероятность стремится к нулю при увеличении выборки». Совсем неформально, теорема утверждает, что с мы можем быть в достаточной степени уверены, что среднее по нашей выборке достаточно близко к «настоящему» среднему и таким образом хорошо его описывает. Разумеется, предполагается наличие традиционного статистического «багажа» — наши наблюдения из выборки должны описывать одно и то же явление, они должны быть независимы, и мысль о том, что есть некоторое «настоящее» распределение с «настоящим» средним, не должна вызывать у нас существенных сомнений.
При формулировке закона мы говорим «среднее по выборке», и все что может быть математически записано как такое среднее, попадает под действие закона. Например, доля событий в общей массе может быть записана как среднее, — нам достаточно записать наличие события как «1» и отсутствие как «0». В итоге среднее будет равно частоте и частота должна быть близка к теоретическому среднему. Именно поэтому по ожидаем, что доля «орлов» при подбрасывании идеальной монеты будет близка к ?.
Рассмотрим теперь ловушки и ошибочные представления об этом законе.
Во-первых, ЗБЧ не всегда верен. Это всего лишь математическая теорема с «входными данными» — предположениями. Если предположения неверны, то и закон не обязан выполняться. Например, это так если наблюдения зависимы, или если нет уверенности в том, что «настоящее» среднее существует и конечно, или если изучаемое явление меняется во времени и мы не можем утверждать, что мы наблюдаем одну и ту же величину. По правде говоря, в определенной степени ЗБЧ верен и в этих случаях, например, для слабокоррелированных наблюдений или даже в том случае когда наблюдаемая величина меняется во времени. Однако, для корректного приложения этого к непосредственной реальности нужен хорошо тренированный специалист-математик.
Во-вторых, кажется верным, что ЗБЧ утверждает «среднее по выборке близко к настоящему среднему». Однако, такое утверждаение остается не полным: надо обязательно добавлять «с высокой долей вероятности; и эта вероятность всегда меньше 100%».
В-третьих, хочется сформулировать ЗБЧ как «среднее по выборке сходится к настоящему среднему при неограниченном росте выборки». Однако, это неверно, потому что среднее по выборке вообще никуда не сходится, так как оно случайное и остается таковым для любого размера выборки. Например, даже если подбросить симметричную монету миллион раз, все равное есть шанс, что доля орлов будет далека от ? или даже равна нулю. В определенном смысле, всегда есть шанс получить что-то необычное. Надо признать, однако, что наша интуиция все-таки подсказыает нам что ЗБЧ должен описывать какую-то сходимость, и так есть на самом деле. Только «сходится» не среднее, а «вероятность отклонения выборочного среднего от его истинного значения», и сходится к нулю. Так как эта идея интуитивно очень удобна («шансы увидеть что-то необычное стремятся к нулю»), матетматики придумали для этого особый тип сходимости – «сходимость по вероятности».
В-четвертых, ЗБЧ не говорит ничего о том, когда выборочное среднее можно считать достаточно близким к теоретическому. Закон больших чисел только постулирует существование определенного явления, он ничего не говорит о том, когда его можно использовать. Получается, на ключевой вопрос с точки зрения практики — «могу ли я использовать ЗБЧ для моей выборки размера n?», закон больших чисел не отвечает. Ответы на эти вопросы дают другие теоремы, например, Центральная Предельная Теорема. Она дает представление о том, в каких пределах выборочное среднее может отклоняться от своего истинного значения.
В заключение следует отметить центральную роль ЗБЧ в статистике и теории вероятностей. История этого закона началась тогда, когда ученые заметили, что частоты некоторых повторяющихся явлений стабилизируются и перестают существенно меняться, при условии многократного повторения опыта или наблюдения. Поразительным было то, что эта «стабилизация частот» наблюдалась для совершенно несвязаных явления – от бросания игральной кости до урожайности в сельском хозяйстве, указывая на возможное существование «закона природы». Интересно, что этот закон природы оказался частью математики, а не физики, химии или биологии, как обычно бывает с законами природы.
[1] Illustrating the Law of Large Numbers (and Confidence Intervals) Jeffrey D Blume & Richard M Royall
ildarz
Мне кажется, без конкретных практических примеров ("тут работает, тут не работает", и почему) текст выглядит не очень полезным. Возможно, имело смысл разобрать в качестве примеров часто встречающиеся заблуждения (начиная от классического "если 5 раз выпала решка, то дальше-то точно попрут орлы, ибо должно сойтись к среднему").
Pochemuk
Если 5 раз подряд выпала решка, то вероятность того, что у нас монета с двумя решками, больше 0,5 :)
Но это уже бета-распределение…
agehsbarg Автор
Привет, спасибо за фидбэк! Действительно, я сократил текст до минимума — без примеров или формул, сухо, но, я надеялся, по существу. Судя по опросу, большинству текст не понравился по тем или иным причинам. У меня на подходе аналогичная статья про центральную предельную теорему, сделаю его более развернутым.
A1054
Давайте я попробую сформулировать, что в тексте мне не понравилось. Он содержит мало информации, описывает тривиальные и очевидные вещи. Ну т.е. на таком уровне все все знают, нужно глубже и с примерами. В теории вероятностей очень много тонкостей, есть что обсудить.
agehsbarg Автор
Интересно, я как раз опасался, что будет слишком сложно. Глубже можно без проблем :)