Большие числа != большим числам.

Число 100 большое? Зависит от ситуации. Сравниваем ли мы его с 0,001, или с 100000? Как и многое в жизни, понятие «большой» относительно.

В этом посте мы объясним, насколько большим должно быть «большое» и докажем, что вы, скорее всего, ошибаетесь насчёт закона больших чисел.

Закон больших чисел (ЗБЧ)

Проведём эксперимент: будем бросать кубик, как делали это на уроках знакомства с вероятностями. Будем продолжать совершать тысячи бросков, каждый раз вычисляя среднее выпавшее значение. 

(Следует помнить, что среднее ожидаемое значение броска кубика равно (1+2+3+4+5+6)/6 = 3,5.)

Вот график первых десяти бросков.

Красное — среднее ожидаемое значение, жёлтое — среднее значение выборки
Красное — среднее ожидаемое значение, жёлтое — среднее значение выборки

Сначала мы выбросили 5, затем 1, и так далее. 

Теперь давайте проверим, что произойдёт, если увеличить количество экспериментов до 100 и 1000:

Чем «больше» становится число, тем ближе средние значения выборки к истинному ожидаемому значению. Закон больших чисел говорит именно об этом: среднее значение выборки сходится к среднему ожидаемому значению. 

Если точнее, существует две версии ЗБЧ: слабая и сильная.

Слабый закон постулирует следующее.

Иными словами, вероятность того, что среднее значение выборки ₙ окажется («выпадет») сколь-нибудь далеко от ожидаемого значения μ, сходится к нулю с увеличением количества размера выборки (n). («Сколь-нибудь далеко» означает отклонение больше любого заранее фиксированного значения.) Подробнее мы рассмотрим это ниже.

Похоже, n = 1000 достаточно «большое» для эксперимента с кубиком. А как насчёт других ситуаций?

Давайте рассмотрим другой пример! Вот этот лотерейный билет из Техаса со стираемыми полями.

На официальной веб-странице написано следующее:

  • Выигрыши на общую сумму $829 миллионов!

  • Сумма выигрыша от $150!

  • Шанс выиграть $20 000 000

  • Билет стоит всего $100!

Звучит прекрасно, но мы знаем математику достаточно хорошо, чтобы не обманываться этими числами. Если покопаться, мы сможем найти вероятность выигрыша. Вот таблица выигрышей с официального сайта:

Сумма выигрыша, приблизительное количество победителей, примерные шансы (1 к *)
Сумма выигрыша, приблизительное количество победителей, примерные шансы (1 к *)

Зная это, мы можем с лёгкостью вычислить наши шансы и ожидаемые значения:

  • шанс что-то выиграть составляет 26,34%,

  • а ожидаемая выплата составляет $75,28958 на билет. (Не учитывая $100 за участие.)

Похоже, билет за $100 покупать не стоит, потому что ожидаемое значение равно всего примерно $75,3. 

А теперь давайте проведём эксперимент, похожий на эксперимент с кубиком. Мы (гипотетически) покупаем всё больше и больше билетов, параллельно вычисляя средние выигрыши. Чем больше билетов мы купим, тем ближе будем к ожидаемому значению (примерно $75).

С первыми десятью билетами нам не очень повезло.

Но давайте купим ещё девяносто! С сотней билетов мы приблизились к ожидаемому, но на долгую перспективу нам нужен сглаженный график рядом с красной линией.

Давайте совершим шаг побольше: увеличим n до 10000.

Теперь у нас получилась плавная линия, но это совсем не то, что мы ожидали! Она находится примерно рядом с $67, а не с ожидаемым значением.

Давайте пойдём дальше. С одним миллионом билетов снова происходит что-то странное: нам начинает везти и выигрыши превышают среднее. Теперь мы отдалились ещё больше!

Похоже, 1000000 — это всё ещё не «большое» число!

Пойдём дальше! При десяти миллионах билетов у нас получается множество крупных выигрышей, которые поднимают среднее вверх, но эффект становится всё меньше и меньше. Мы медленно, но верно приближаемся к ожидаемому значению. 

Теперь мы наконец получили ожидаемую плавную линию, находящуюся рядом с истинным средним.

В первом эксперименте мы смогли продемонстрировать закон больших чисел на тысяче бросков, но во втором не хватает даже миллиона.

Большие числа != большим числам.

Как же объяснить странности, произошедшие во втором эксперименте?

Дисперсия и скорость сходимости

Давайте приглядимся к слабому закону больших чисел!

По сути, вероятность P(|ₙ - μ| > ε) — это показатель расстояния между средним значением выборки до истинного среднего (то есть ожидаемого значения) в вероятностном смысле.

Расстояние от среднего значения выборки (жёлтое) до истинного среднего (красное)
Расстояние от среднего значения выборки (жёлтое) до истинного среднего (красное)

Чем меньше ε, тем больше вероятностное расстояние. В математической записи верно следующее:

Слабый закон больших чисел гласит:

То есть вероятностное расстояние становится маленьким, как мы и хотели.

Грубо говоря, это означает, что среднее значение выборки равно истинному среднему плюс распределение, которое становится всё более и более концентрированным в области нуля. Иными словами, мы имеем:

(D)= означает, что величины справа и слева от этого знака равенства распределены одинаково
(D)= означает, что величины справа и слева от этого знака равенства распределены одинаково

асимптотическое расширение в смысле распределения. Член o(1) обозначает распределение, которое с ростом n становится всё более концентрированным в области нуля. Возможно, вы знакомы с обозначениями большого и малого «O»; это тоже самое, но с распределениями вероятности.

Объясняет ли слабый закон больших чисел и асимптотическое расширение происходящее с нашими лотерейными билетами; то есть, почему нам нужно десять миллионов выборок, чтобы достаточно приблизиться к истинному среднему?

Краткий и жёсткий ответ: нет.

Нам нужно асимптотическое расширение большего размера. Нашим инструментом для этого будет центральная предельная теорема — один из самых известных результатов в теории вероятностей, формализующий понимание того, почему средние значения выборки напоминают гауссовы распределения.

Центральная предельная теорема

Давайте сразу нырнём с головой и перейдём непосредственно к центральной предельной теореме (central limit theorem, CLT). Она гласит, что с точки зрения распределения масштабированные на √n средние центрированные значения выборок сходятся к стандартному нормальному распределению. (Термин «центрированные» означает, что мы вычитаем ожидаемое значение.)

Нужно подчеркнуть, что эта сходимость справедлива в случае распределений. Это просто иной способ сказать, что кумулятивные функции распределения являются сходящимися поточечно. (Знаю, сходимость в теории вероятностей — это довольно запутанная тема.)

Давайте развернём это: для асимптотического расширения закон больших чисел и центральная предельная теорема подразумевают, что

то есть среднее значение выборки равно сумме 1) ожидаемого значения μ, 2) масштабированного нормального распределения и 3) распределения, сводящегося к нулю быстрее, чем 1/√n.

То есть для нашего асимптотического расширения мы имеем

Это можно переписать в упрощённом виде, если объединить константы в нормальное распределение. А именно, мы получаем

и это значит, что наше асимптотическое расширение принимает вид

Иными словами, при больших n среднее значение выборки приблизительно равно нормальному распределению с дисперсией σ²/n. Чем больше n, тем меньше дисперсия; чем меньше дисперсия, тем сильнее нормальное распределение концентрируется рядом с ожидаемым значением μ.

И это даёт ответ на наш вопрос: каким должно быть зловещее число в законе больших чисел? Это зависит от дисперсии нашего распределения!

Из нашего асимптотического расширения можно понять, что если дисперсия в 10 больше, то, чтобы среднее было так же близко к изначальному, нам нужно приблизительно в десять раз больше выборок. Это происходит из-за члена σ²/n, где σ² обозначает дисперсию нашей выборки X₁X₂, …, Xₙ, а n обозначает количество выборок.

Давайте вернёмся к броскам кубиков и лотерее. Дисперсия броска кубика составляет 35/12 ≈ 2,916, а дисперсия техасской лотереи — приблизительно 157 000 000. Это в пятьдесят миллионов больше. То есть в среднем нужна выборка в пятьдесят миллионов раз больше, чтобы среднее значение выборки было столь же близко к истинному среднему, как и в случае кубиков.

Также важно заметить, что поскольку закон больших чисел — это вероятностная формулировка, утверждения типа «нам нужно в пятьдесят миллионов раз больше образцов» должны пониматься вероятностно. Если нам повезёт, среднее значение выборки может быть очень близко к истинному среднему же через несколько тысяч образцов. 

Заключение

Закон больших чисел часто понимают неверно.

Мы используем его достаточно часто, но он имеет важную тонкость. Хотя среднее значение выборки сходится (почти гарантированно) к ожидаемому значению, скорость сходимости зависит от дисперсии выборки. Чем больше дисперсия, тем медленнее сходимость.

И для множества практических применений это оказывается плохим известием. Например, поэтому сходимость метода Монте-Карло медленна. В реальной ситуации, например, в азартных играх, у вас даже могут закончиться деньги, прежде чем вы начнёте выигрывать. (Впрочем, у большинства игр в казино ожидаемое значение отрицательно, поэтому в длительной перспективе вы всегда будете проигрывать.)

Какой же можно сделать из этого вывод? Применяя закон больших чисел, всегда учитывайте скорость сходимости.

Комментарии (10)


  1. Abobcum
    29.09.2023 11:34

    Стоит отметить, что в лотерее нужно учитывать, что выигрыши заранее распределены по билетам, а их количество ограничено. Иными словами, шанс выиграть приз постоянно постоянно меняется, поэтому и красная линия должна колебаться, а в конце уйти к 0 либо 1.


    1. BugM
      29.09.2023 11:34

      Нет, не всегда. Есть классика вроде 6из36. Когда все держится только на тервере.


      1. Wesha
        29.09.2023 11:34
        +2

        Прощу прощения покорно, либо крестик, либо трусы 6 из 49, либо 5 из 36 — взбольтать, но не смешивать.


        1. KongEnGe
          29.09.2023 11:34

          "А если встанет на ребро?" ©

          "6 из 45" стало же под конец 80-х


          1. Wesha
            29.09.2023 11:34

            Моя прелесссссть...

            Ну и да, 6 из 45 потом стало


  1. dopusteam
    29.09.2023 11:34
    +1

    Иными словами, вероятность того, что среднее значение выборки X̅ₙ находящееся на любом расстоянии от ожидаемого значения μ, сходится к нулю с увеличением количества выборок (n). (Подробнее мы рассмотрим это ниже.)

    Что то я не смог распарсить это предложение.

    Вероятность того, что ... значение ... сходится к нулю.

    Можете расшифровать?


    1. MishaRash
      29.09.2023 11:34
      +2

      По-моему, тут в переводе не только грамматическая ошибка, но затем ещё и смысловая. Оригинал:

      In other words, the probability of the sample average X̅ₙ falling however far from the expected value μ converges to zero as the number of samples (n) grows.

      Я бы перевёл как:
      Иными словами, вероятность того, что среднее значение выборки X̅ₙ окажется ("выпадет") сколь-нибудь далеко от ожидаемого значения μ, сходится к нулю с увеличением количества элементов в выборке (или просто размера выборки).

      И уточнил бы, что "сколь-нибудь далеко" = отклонение больше любого заранее фиксированного значения, а то это далеко не очевидно.


      1. PatientZero Автор
        29.09.2023 11:34

        Спасибо, исправлю


  1. janatem
    29.09.2023 11:34
    +3

    (D)= означает «с равномерным распределением»

    Эта подпись к рисунку — некорректный перевод «equally distributed». Здесь подразумевается, что величины справа и слева от этого хитрого знака равенства распределены одинаково.


    1. PatientZero Автор
      29.09.2023 11:34

      Спасибо, исправлю