
Подбросим монетку
раз. Странно ожидать, что выпадет ровно по
орлов и решек. Но какое отклонение типично? Единицы, десятки, сотни?
Подбросим
раз игральный кубик и сложим выпавшие значения. Какой результат можно ожидать? Насколько он будет близок к чему-то «среднему»?
В этих задачах фигурируют две модели: единичный эксперимент и серия одинаковых экспериментов. Между ними есть глубокая связь — и именно её формализует одно из самых знаменитых утверждений теории вероятностей: Закон Больших Чисел.
Этот закон часто упоминается в научно-популярных объяснениях как причина того, почему вероятности «работают» в реальном мире. Но это — скорее метафора, чем точное утверждение. На мой взгляд, оно притянуто за уши. В заключении мы обсудим, что на самом деле утверждает ЗБЧ — и что не утверждает. Этот раздел можно читать отдельно.
А пока сосредоточимся на математике. Закон Больших Чисел — следствие другого фундаментального факта: неравенства Чебышёва. Оно позволяет оценить, насколько сильно результат случайного эксперимента может отклониться от его среднего значения.
Цель статьи — шаг за шагом вывести неравенство Чебышёва и Закон Больших Чисел, доказать их и научиться ими пользоваться. Мы начнём с конкретных задач и дойдём до общих утверждений — через примеры, интуитивные идеи и формальные доказательства.
Предполагается, что читатель знаком с понятиями случайной величины, математического ожидания, дисперсии и их свойствами — хотя бы в дискретной ситуации. Я не буду напоминать эти определения и факты: о них стоит рассказать в другой раз.
Эта статья — подготовка к рассказу о Центральной Предельной Теореме, которая дает более полное описание распределения результатов в длинной серии экспериментов. В этом августе я прочту мини-курс про ЦПТ и её применениях и напишу о ней цикл текстов на Хабре.
Я веду телеграм-канал Кроссворд Тьюринга. Там вы найдете одностраничную шпаргалку с кратким изложением формул и доказательств из статьи. Подписывайтесь!)
Модель n-кратного эксперимента
Рассмотрим некоторый эксперимент, результат которого можно перевести в число. Этот результат — случайная величина, которую мы обозначим за. В наших примерах:
при подбрасывании монетки
, если выпал орёл, и
, если решка;
при броске игрального кубика
— выпавшее число от
до
.
Все дальнейшие рассуждения работают для произвольного, для которой определено математическое ожидание
и дисперсия
.
Проведем серию из экспериментов. Обозначим их результаты как
. Интересующая нас величина — сумма всех результатов. Обозначим ее за
В пером примере — количество выпавших решек, во втором — сумма чисел на кубиках.
Что можно понять про? Из свойств математического ожидания следует, что
Разумеется, это не значит, что часто равна
. Например, при броске кубика среднее равно
— оно вообще не может выпасть. Если бросить 2 кубика, среднее значение суммы 7, но оно выпадает с вероятностью 1/6, то есть совсем нечасто.
И всё же, часто близка к
, другими словами, она не сильно отклоняется от своего среднего. Нам хочется придать этому наблюдению точный математически смысл
Вероятность отклонения
Чтобы выразить предыдущую идею количественно, надо для каждого найти вероятность
К сожалению,устроена гораздо сложнее
, и посчитать вероятности честно не выйдет!
Вычисление для случая монтеки
Даже если — число решек, вычисление вероятности отклонения от среднего оказывается очень громоздким
Если например это ужасная сумма, с которой невозможно работать
Неясно, какую информацию даёт точная формула для . Её трудно выписать и, как правило, невозможно использовать на практике.
Но если смотреть на приближённо, картина резко упрощается. При больших
гистограмма становится похожа на колокол — это проявление Центральной Предельной Теоремы. Это тема для отдельного большого разговора. Важна сама идея: вместо вычисления вероятности достаточно её оценить. Сейчас мы это и сделаем.
Неравенство Маркова
Начнем с такой задачки
Доход, в 10 раз превышающий средний, имеют менее 10% населения Земли.
Обозначим средний доход на человека через , а число жителей Земли — через
. Если бы хотя бы 10% населения получали доход больше
, то общий доход составил бы больше
, что невозможно — ведь
и есть суммарный доход.
Это частный случай очень простой, но полезной оценки — неравенства Маркова:
Неравенство Маркова: Для положительной случайной величины
![]()
![]()
Доказательство неравенства Маркова
Рассмотрим вспомогательную случайную величину , определённую так:
Так как, значит
. Осталось подставить
Неравенство Чебышёва
Применим предыдущий факт к оценке . Прямо использовать неравенство Маркова для
неудобно: нужно вычислять
, а это, вообще говоря, сложно. Гораздо проще подставить
Получаем:
Неравенство Чебышёва: Для любой случайной величины
выполняется
![]()
Именно это показывает, зачем нужна дисперсия. С одной стороны, её легко вычислить. С другой — она позволяет оценивать вероятность отклонения от среднего.
Например, если вы знаете, что , и хотите, чтобы отклонение не превышало
с вероятностью
, достаточно взять
Это даёт грубую, но надёжную гарантию: с вероятностью 99.8% значение попадёт в интервал длины 22 вокруг среднего.
Закон Больших Чисел
Вернемся к случайной величине и подставим его в неравенство Чебышёва. Получаем:
Эта оценка растёт с и перестаёт что-либо значить — правая часть становится больше
. Это естественно: чем больше экспериментов, тем больше разброс суммы. Разумнее спросить, как сильно отклоняется среднее арифметическое
от среднего значения
Это и есть содержательная суть Закона Больших Чисел:
Закон Больших Чисел: Величина
обладает тремя свойствами:
Математическое ожидание равно
;
Дисперсия равна
;
Вероятность того, что
отклоняется от
более чем на
, не больше:
![]()
Другие версии ЗБЧ
Обычно слабым ЗБЧ называют другое утверждение, которое может быть записано более коротко и красиво. Оно утверждает, что при вероятность отклонения среднего от математического ожидания стремится к нулю:
Это очевидное следствие пункта . Но на практике оно не очень полезно: важно не то, что вероятность стремится к нулю, а то, насколько быстро она это делает.
Кстати, скорость можно оценить и по другому. Верно неравенство Хёффдинга:
Тут и
— нижняя и верхняя границы для
. Это экспоненциально убывающая оценка — она гораздо сильнее, чем неравенство Чебышёва.
Есть еще множество связанных результатов — усиленный ЗБЧ, теорема Колмогорова и так далее. Но они выходят за рамки нашего обзора
Разбор задачи о монетке
Рассмотрим броски монетки. Пусть вероятность орла , решки —
. Тогда
и
, значит
и
. По ЗБЧ
Теперь подставим значения: ,
,
,
. Получаем:
То есть вероятность того, что доля орлов будет меньше 0.4 или больше 0.6, не превышает 2.5%.
Упражнение: Примените ЗБЧ к задаче о бросках кубика. Для какого
вероятность того, что средний результат броска отличается от 3.5 более чем на
, меньше
?
Мы вывели и доказали Закон Больших Чисел — строгое утверждение о том, что среднее арифметическое большого числа независимых экспериментов с высокой вероятностью близок к математическому ожиданию. Теперь перейдем к обсуждению его смысла.
Заключение: о чем говорит ЗБЧ
У Закона Больших Чисел есть ещё и философское измерение — связанное с тем, что вообще означает вероятность, почему мы верим теории вероятностей и в каких ситуациях она работает. Об этом часто пишут и спорят, и я тоже хочу сказать несколько слов — не как эксперт, а как человек, которому интересны эти вопросы.
Всё, что следует дальше, — не истина, а моя личная позиция. Возможно, она вам покажется очевидной. Возможно — спорной. В любом случае, буду рад, если это даст пищу для размышлений.
Два взгляда на вероятность
В основе теории вероятностей — идея повторяемого эксперимента. Мы наблюдаем за процедурой, которую можно многократно воспроизвести в одних и тех же условиях, и интересуемся тем, как часто происходит определённое событие или какое значение принимает некоторая функция.
Обычно мы считаем частоты, с которыми происходит наше событие при большом числе повторений. Они оказываются близки друг к другу независимо от того, кто и когда проводит эксперименты. Бросай монетку хоть утром, хоть вечером, хоть на Луне — доля орлов будет приближаться к одному и тому же числу — вероятности выпадения орла.
Но с вероятностями можно работать и теоретически, не проводя эксперименты, а анализируя структуру модели. Например с помощью комбинаторики, через интегралы и производящие функции или через оценки — как мы делали в этой статье.
Получается, есть два подхода к вычислению вероятностей — статистический (провести множество экспериментов и найти долю успехов) и математический.
Их связь напоминает понятие предела из математического анализа. Мы проводим серию экспериментов, фиксируем частоты и верим, что при увеличении числа повторений частота будет приближаться к вероятности. Это — не теорема, а убеждение, подтверждённое практикой. Но этого мало.
Даже если мы согласны, что существует предел, возникает второй, более тонкий вопрос: насколько близка частота после экспериментов к этому пределу? Теория не даёт ответа на этот вопрос сама по себе. У последовательности может быть предел — но по первым членам мы вообще говоря не можем его угадать.
Тем не менее, в статистике мы именно это и делаем: используем конечные данные, чтобы судить о теоретических вероятностях. И в подавляющем большинстве случаев — это работает. Почему?
На эти вопросы отвечает не формула, а принцип, на который мы полагаемся, даже если не всегда это осознаём. Это — принцип Курно. О нём — дальше.
Принцип Курно
На практике математические вероятности совпадают с экспериментальными частотами. Именно поэтому тервер работает в естественных науках от физики и биологии до социологии и лингвистики. Благодаря этому мы можем:
предсказывать поведение систем без экспериментов — рассчитывая вероятности математически и ожидая, что частоты будут приближаться к тем же числам;
моделировать случайные процессы на компьютере и получать приближённые значения для теоретических вероятностей — так работает метод Монте-Карло.
Этот экспериментальный факт называется принципом Курно (или принципом Бореля)
Принцип Курно: частоты, наблюдаемые в экспериментах, приближаются к вероятностям, рассчитанным математически.
Иногда пишут, что ЗБЧ «доказывает» этот принцип. Но это ошибка. Всё как раз наоборот: принцип Курно — не следствие, а фундамент. Он не формулируется в рамках теории — он определяет, когда её можно применять.
Во-первых, это постулат, а не утверждение. Если организовать сбор статистики плохо — например, измерять среднегодовую температуру только летом — частоты не будут отражать вероятности. Значит, и сама теория будет неприменима. Принцип Курно — не закон, а необходимое условие, при соблюдении которого теория начинает работать.
Во-вторых, он не является математическим утверждением. Он связывает два разных мира: теоретические вероятности и конкретные частоты. Эти частоты в теории вероятности не рассматриваются — рассматриваются только соответствующие случайные величины.
В-третьих, если воспринимать этот принцип как логическую истину, он приводит к парадоксам. Из него логически следует, что события с очень малой вероятностью не должны наблюдаться вовсе. Это приводит к знаменитым когнитивным искажениям, таким как парадокс лотереи. Описана ситуация, когда в казино шарик выпадал на красное 26 раз подряд. Люди ставили на чёрное, потому что «так не бывает» — и проигрывали.
О чем же говорит ЗБЧ?
Сам по себе, ЗБЧ — это внутреннее утверждение теории вероятностей. Оно описывает, как ведёт себя сумма независимых случайных величин при увеличении числа слагаемых. Более того, его можно переформулировать даже без упоминания вероятности — как оценку на интеграл -кратной свёртки функции с самой собой. Это — факт о структуре модели, не о реальности.
Но если принять принцип Курно, ЗБЧ приобретает прикладной смысл. Он начинает говорить нам, сколько экспериментов нужно провести, чтобы с заданной точностью и с заданной вероятностью оценить неизвестную вероятность. Не потому что ЗБЧ "доказывает", что частоты приближаются к вероятностям — а потому что он описывает, как устроена случайная величина, к которой мы применяем этот постулат.
Напишите, как вы понимаете смысл Закона больших чисел и его связь с реальностью. Буду рад обсудить это с вами в комментариях. Если вы знаете хорошие ссылки по этой теме — пожалуйста, поделитесь
Больше материалов — в телеграм-канале Кроссворд Тьюринга
AAbrosov
То есть вероятность того, что доля орлов будет меньше 0.4 или больше 0.6, не превышает 2.5%.
Ну ок, определили вероятность через вероятность. Потом можно поставить на это в казино, проиграть и успокаивать себя что это было крайне маловероятно.
d1-d5 Автор
Попробуйте смоделировать эксперимент на компьютере --- бросить монетку 1000 раз и посмотреть, будет ли отклонение от 500 больше 100. Это маловероятно, спокойно можно в казино идти)
d1-d5 Автор
d1-d5 Автор
На самом деле, неравенство Чебышёва — очень грубая оценка
Неравенство Хёффдинга дает в этом случае оценку
(офигеть!), если мне не врет компьютер