Подбросим монетку1000 раз. Странно ожидать, что выпадет ровно по500орлов и решек. Но какое отклонение типично? Единицы, десятки, сотни?

Подбросим 1000 раз игральный кубик и сложим выпавшие значения. Какой результат можно ожидать? Насколько он будет близок к чему-то «среднему»?

В этих задачах фигурируют две модели: единичный эксперимент и серия одинаковых экспериментов. Между ними есть глубокая связь — и именно её формализует одно из самых знаменитых утверждений теории вероятностей: Закон Больших Чисел.

Этот закон часто упоминается в научно-популярных объяснениях как причина того, почему вероятности «работают» в реальном мире. Но это — скорее метафора, чем точное утверждение. На мой взгляд, оно притянуто за уши. В заключении мы обсудим, что на самом деле утверждает ЗБЧ — и что не утверждает. Этот раздел можно читать отдельно.

А пока сосредоточимся на математике. Закон Больших Чисел — следствие другого фундаментального факта: неравенства Чебышёва. Оно позволяет оценить, насколько сильно результат случайного эксперимента может отклониться от его среднего значения.

Цель статьи — шаг за шагом вывести неравенство Чебышёва и Закон Больших Чисел, доказать их и научиться ими пользоваться. Мы начнём с конкретных задач и дойдём до общих утверждений — через примеры, интуитивные идеи и формальные доказательства.

Предполагается, что читатель знаком с понятиями случайной величиныматематического ожиданиядисперсии и их свойствами — хотя бы в дискретной ситуации. Я не буду напоминать эти определения и факты: о них стоит рассказать в другой раз.

Эта статья — подготовка к рассказу о Центральной Предельной Теореме, которая дает более полное описание распределения результатов в длинной серии экспериментов. В этом августе я прочту мини-курс про ЦПТ и её применениях и напишу о ней цикл текстов на Хабре.

Я веду телеграм-канал Кроссворд Тьюринга. Там вы найдете одностраничную шпаргалку с кратким изложением формул и доказательств из статьи. Подписывайтесь!)

Модель n-кратного эксперимента

Рассмотрим некоторый эксперимент, результат которого можно перевести в число. Этот результат — случайная величина, которую мы обозначим заX. В наших примерах:

  • при подбрасывании монетки X = 0, если выпал орёл, и X = 1, если решка;

  • при броске игрального кубикаX — выпавшее число от 1 до 6.

Все дальнейшие рассуждения работают для произвольногоX, для которой определено математическое ожидание \mu = \mathbb{E}[X] и дисперсия \sigma^2= \mathbb D[X].

Проведем серию из n экспериментов. Обозначим их результаты как X_1, X_2, \dots, X_n. Интересующая нас величина — сумма всех результатов. Обозначим ее за

S_n = X_1 + X_2 + \cdots + X_n.

В пером примереS_n — количество выпавших решек, во втором — сумма чисел на кубиках.

Что можно понять проS_n? Из свойств математического ожидания следует, что

\mathbb{E}[S_n] = n\mu, \quad \mathbb{D}[S_n] = n\sigma^2.

Разумеется, это не значит, что S_nчасто равна n\mu. Например, при броске кубика среднее равно 3{,}5 — оно вообще не может выпасть. Если бросить 2 кубика, среднее значение суммы 7, но оно выпадает с вероятностью 1/6, то есть совсем нечасто.

И всё же, S_n часто близка кn\mu, другими словами, она не сильно отклоняется от своего среднего. Нам хочется придать этому наблюдению точный математически смысл

Вероятность отклонения

Чтобы выразить предыдущую идею количественно, надо для каждого \varepsilon найти вероятность

\mathbb{P}(|S_n - n\mu| \geq \varepsilon).

К сожалению,S_nустроена гораздо сложнееX, и посчитать вероятности честно не выйдет!

Вычисление для случая монтеки

Даже если S_n — число решек, вычисление вероятности отклонения от среднего оказывается очень громоздким

\mathbb{P}(|S_n - \tfrac{n}{2}| \geq \varepsilon)= 1 - \mathbb{P}(|S_n - \tfrac{n}{2}| < \varepsilon)= 1 - \sum_{k = \lceil \frac{n}{2} - \varepsilon \rceil}^{\lfloor \frac{n}{2} + \varepsilon \rfloor} \mathbb{P}(S_n = k)\Rightarrow\mathbb{P}(|S_n - \tfrac{n}{2}| \geq \varepsilon)= 1 - \sum_{k = \lceil \frac{n}{2} - \varepsilon \rceil}^{\lfloor \frac{n}{2} + \varepsilon \rfloor} \binom{n}{k} \cdot 2^{-n}.

Если например n=1000 это ужасная сумма, с которой невозможно работать

Неясно, какую информацию даёт точная формула для \mathbb{P}(|S_n - n\mu| \geq \varepsilon). Её трудно выписать и, как правило, невозможно использовать на практике.

Но если смотреть на S_n приближённо, картина резко упрощается. При больших n гистограмма становится похожа на колокол — это проявление Центральной Предельной Теоремы. Это тема для отдельного большого разговора. Важна сама идея: вместо вычисления вероятности достаточно её оценить. Сейчас мы это и сделаем.

Неравенство Маркова

Начнем с такой задачки

Доход, в 10 раз превышающий средний, имеют менее 10% населения Земли.

Обозначим средний доход на человека через A, а число жителей Земли — через N. Если бы хотя бы 10% населения получали доход больше 10A, то общий доход составил бы больше 0{,}1N \cdot 10A = NA, что невозможно — ведь NA и есть суммарный доход.

Это частный случай очень простой, но полезной оценки — неравенства Маркова:

  • Неравенство Маркова: Для положительной случайной величины Y 

    \mathbb{P}(Y \ge \varepsilon) \le \frac{\mathbb{E}[Y]}{\varepsilon}.
Доказательство неравенства Маркова

Рассмотрим вспомогательную случайную величину Z, определённую так:

Z = \begin{cases}\varepsilon, & \text{если } Y \ge \varepsilon, \\0, & \text{иначе}.\end{cases}

Так какZ \le Y, значит \mathbb{E}[Z] \le \mathbb{E}[Y]. Осталось подставить \mathbb{E}[Z]

\mathbb{E}[Z] = \varepsilon \cdot \mathbb{P}(Y \ge \varepsilon) \le \mathbb{E}[Y] \quad \Rightarrow \quad \mathbb{P}(Y \ge \varepsilon) \le \frac{\mathbb{E}[Y]}{\varepsilon}.

Неравенство Чебышёва

Применим предыдущий факт к оценке \mathbb{P}(|X - \mu| \geq \varepsilon). Прямо использовать неравенство Маркова для |X - \mu| неудобно: нужно вычислять \mathbb{E}|X - \mu|, а это, вообще говоря, сложно. Гораздо проще подставить Y = (X - \mu)^2. Получаем:

 \mathbb{P}(|X - \mu| \geq \varepsilon) = \mathbb{P}((X - \mu)^2 \geq \varepsilon^2) \leq \frac{\mathbb{D}[X]}{\varepsilon^2}.
  • Неравенство Чебышёва: Для любой случайной величины Xвыполняется 

    \mathbb{P}(|X - \mu| \geq \varepsilon) \leq \frac{\mathbb D(X)}{\varepsilon^2}.

Именно это показывает, зачем нужна дисперсия. С одной стороны, её легко вычислить. С другой — она позволяет оценивать вероятность отклонения от среднего.

Например, если вы знаете, что \mathbb{D}[X] \leq 0{,}25, и хотите, чтобы отклонение не превышало \varepsilon с вероятностью 0.2%, достаточно взять

\varepsilon = \sqrt{\frac{0{,}25}{0{,}002}} \approx 11.

Это даёт грубую, но надёжную гарантию: с вероятностью 99.8% значение X попадёт в интервал длины 22 вокруг среднего.

Закон Больших Чисел

Вернемся к случайной величине S_n и подставим его в неравенство Чебышёва. Получаем:

\mathbb{P}(|S_n - n\mu| \geq \varepsilon) \leq \frac{n\sigma^2}{\varepsilon^2}

Эта оценка растёт с n и перестаёт что-либо значить — правая часть становится больше 1. Это естественно: чем больше экспериментов, тем больше разброс суммы. Разумнее спросить, как сильно отклоняется среднее арифметическоеS_n/n от среднего значения

\mathbb{P} \left( \left| \frac{S_n}{n} - \mu \right| \geq \varepsilon \right)  = \mathbb{P} \left( \left| S_n - n\mu \right| \geq n\varepsilon \right)  \leq \frac{\sigma^2}{n\varepsilon^2}

Это и есть содержательная суть Закона Больших Чисел:

Закон Больших Чисел: ВеличинаS_n обладает тремя свойствами:

  1. Математическое ожидание равно \mathbb{E}[S_n] = n\mu;

  2. Дисперсия равна \mathbb{D}[S_n] = n\sigma^2;

  3. Вероятность того, что S_n отклоняется от n\mu более чем на \varepsilon, не больше:

    \mathbb{P}\left( \left| \frac{S_n}{n} - \mu \right| \geq \varepsilon \right) \leq \frac{\sigma^2}{n\varepsilon^2}.
Другие версии ЗБЧ

Обычно слабым ЗБЧ называют другое утверждение, которое может быть записано более коротко и красиво. Оно утверждает, что при n\to\infty вероятность отклонения среднего от математического ожидания стремится к нулю:

\lim_{n \to \infty} \mathbb{P} \left( \left| \frac{S_n}{n} - \mu \right| \geq \varepsilon \right) = 0

Это очевидное следствие пункта 3. Но на практике оно не очень полезно: важно не то, что вероятность стремится к нулю, а то, насколько быстро она это делает.

Кстати, скорость можно оценить и по другому. Верно неравенство Хёффдинга:

\mathbb{P} \left( \left| \frac{S_n}{n} - \mu \right| \geq \varepsilon \right)  \leq 2 \exp \left( -\frac{2n\varepsilon^2}{(b - a)^2} \right)

Тут a и b — нижняя и верхняя границы для X. Это экспоненциально убывающая оценка — она гораздо сильнее, чем неравенство Чебышёва.

Есть еще множество связанных результатов — усиленный ЗБЧ, теорема Колмогорова и так далее. Но они выходят за рамки нашего обзора

Разбор задачи о монетке

Рассмотрим броски монетки. Пусть вероятность орла p, решки — q=1−p. Тогда \mathbb{E}[X_i] = p и\mathbb{D}[X_i] = pq, значит\mathbb{E}[S_n] = np и\mathbb{D}[S_n] = npq. По ЗБЧ

\mathbb{P} \left( \left| \frac{S_n}{n} - p \right| \geq \varepsilon \right)  \leq \frac{pq}{n\varepsilon^2}

Теперь подставим значения: p = \frac{1}{2}, q = \frac{1}{2}, n = 1000, \varepsilon = 0.1. Получаем:

\mathbb{P} \left( \left| \frac{S_n}{n} - \frac{1}{2} \right| \geq 0.1 \right)  \leq \frac{0.25}{1000 \cdot 0.01}  = \frac{0.25}{10} = 0.025

То есть вероятность того, что доля орлов будет меньше 0.4 или больше 0.6, не превышает 2.5%.

Упражнение: Примените ЗБЧ к задаче о бросках кубика. Для какого \varepsilon вероятность того, что средний результат броска отличается от 3.5 более чем на \varepsilon, меньше 0.02%?

Мы вывели и доказали Закон Больших Чисел — строгое утверждение о том, что среднее арифметическое большого числа независимых экспериментов с высокой вероятностью близок к математическому ожиданию. Теперь перейдем к обсуждению его смысла.

Заключение: о чем говорит ЗБЧ

У Закона Больших Чисел есть ещё и философское измерение — связанное с тем, что вообще означает вероятностьпочему мы верим теории вероятностей и в каких ситуациях она работает. Об этом часто пишут и спорят, и я тоже хочу сказать несколько слов — не как эксперт, а как человек, которому интересны эти вопросы.

Всё, что следует дальше, — не истина, а моя личная позиция. Возможно, она вам покажется очевидной. Возможно — спорной. В любом случае, буду рад, если это даст пищу для размышлений.

Два взгляда на вероятность

В основе теории вероятностей — идея повторяемого эксперимента. Мы наблюдаем за процедурой, которую можно многократно воспроизвести в одних и тех же условиях, и интересуемся тем, как часто происходит определённое событие или какое значение принимает некоторая функция.

Обычно мы считаем частоты, с которыми происходит наше событие при большом числе повторений. Они оказываются близки друг к другу независимо от того, кто и когда проводит эксперименты. Бросай монетку хоть утром, хоть вечером, хоть на Луне — доля орлов будет приближаться к одному и тому же числу — вероятности выпадения орла.

Но с вероятностями можно работать и теоретически, не проводя эксперименты, а  анализируя структуру модели. Например с помощью комбинаторики, через интегралы и производящие функции или через оценки — как мы делали в этой статье.

Получается, есть два подхода к вычислению вероятностей — статистический (провести множество экспериментов и найти долю успехов) и математический. 

Их связь напоминает понятие предела из математического анализа. Мы проводим серию экспериментов, фиксируем частоты и верим, что при увеличении числа повторений частота будет приближаться к вероятности. Это — не теорема, а убеждение, подтверждённое практикой. Но этого мало.

Даже если мы согласны, что существует предел, возникает второй, более тонкий вопрос: насколько близка частота после n экспериментов к этому пределу? Теория не даёт ответа на этот вопрос сама по себе. У последовательности может быть предел — но по первым членам мы вообще говоря не можем его угадать.

Тем не менее, в статистике мы именно это и делаем: используем конечные данные, чтобы судить о теоретических вероятностях. И в подавляющем большинстве случаев — это работает. Почему?

На эти вопросы отвечает не формула, а принцип, на который мы полагаемся, даже если не всегда это осознаём. Это — принцип Курно. О нём — дальше.

Принцип Курно

На практике математические вероятности совпадают с экспериментальными частотами. Именно поэтому тервер работает в естественных науках от физики и биологии до социологии и лингвистики. Благодаря этому мы можем:

  • предсказывать поведение систем без экспериментов — рассчитывая вероятности математически и ожидая, что частоты будут приближаться к тем же числам;

  • моделировать случайные процессы на компьютере и получать приближённые значения для теоретических вероятностей — так работает метод Монте-Карло.

Этот экспериментальный факт называется принципом Курно (или принципом Бореля)

Принцип Курно: частоты, наблюдаемые в экспериментах, приближаются к вероятностям, рассчитанным математически.

Иногда пишут, что ЗБЧ «доказывает» этот принцип. Но это ошибка. Всё как раз наоборот: принцип Курно — не следствие, а фундамент. Он не формулируется в рамках теории — он определяет, когда её можно применять.

Во-первых, это постулат, а не утверждение. Если организовать сбор статистики плохо — например, измерять среднегодовую температуру только летом — частоты не будут отражать вероятности. Значит, и сама теория будет неприменима. Принцип Курно — не закон, а необходимое условие, при соблюдении которого теория начинает работать.

Во-вторых, он не является математическим утверждением. Он связывает два разных мира: теоретические вероятности и конкретные частоты. Эти частоты в теории вероятности не рассматриваются — рассматриваются только соответствующие случайные величины.

В-третьих, если воспринимать этот принцип как логическую истину, он приводит к парадоксам. Из него логически следует, что события с очень малой вероятностью не должны наблюдаться вовсе. Это приводит к знаменитым когнитивным искажениям, таким как парадокс лотереи. Описана ситуация, когда в казино шарик выпадал на красное 26 раз подряд. Люди ставили на чёрное, потому что «так не бывает» — и проигрывали.

О чем же говорит ЗБЧ?

Сам по себе, ЗБЧ — это внутреннее утверждение теории вероятностей. Оно описывает, как ведёт себя сумма независимых случайных величин при увеличении числа слагаемых. Более того, его можно переформулировать даже без упоминания вероятности — как оценку на интеграл n-кратной свёртки функции с самой собой. Это — факт о структуре модели, не о реальности.

Но если принять принцип Курно, ЗБЧ приобретает прикладной смысл. Он начинает говорить нам, сколько экспериментов нужно провести, чтобы с заданной точностью и с заданной вероятностью оценить неизвестную вероятность. Не потому что ЗБЧ "доказывает", что частоты приближаются к вероятностям — а потому что он описывает, как устроена случайная величина, к которой мы применяем этот постулат.

Напишите, как вы понимаете смысл Закона больших чисел и его связь с реальностью. Буду рад обсудить это с вами в комментариях. Если вы знаете хорошие ссылки по этой теме — пожалуйста, поделитесь

Больше материалов — в телеграм-канале Кроссворд Тьюринга

Комментарии (6)


  1. AAbrosov
    06.08.2025 16:34

    То есть вероятность того, что доля орлов будет меньше 0.4 или больше 0.6, не превышает 2.5%.

    Ну ок, определили вероятность через вероятность. Потом можно поставить на это в казино, проиграть и успокаивать себя что это было крайне маловероятно.


    1. d1-d5 Автор
      06.08.2025 16:34

      Попробуйте смоделировать эксперимент на компьютере --- бросить монетку 1000 раз и посмотреть, будет ли отклонение от 500 больше 100. Это маловероятно, спокойно можно в казино идти)


    1. d1-d5 Автор
      06.08.2025 16:34


    1. d1-d5 Автор
      06.08.2025 16:34

      На самом деле, неравенство Чебышёва — очень грубая оценка

      Неравенство Хёффдинга дает в этом случае оценку 4{,}12 \times 10^{-9}(офигеть!), если мне не врет компьютер


  1. KeisN13
    06.08.2025 16:34

    Кажется телега не верно указана


    1. d1-d5 Автор
      06.08.2025 16:34

      Спасибо огромное! Поправил