Недавно на выходном оффере в Авито спрашивали задачку про нахождение доверительного интервала для медианы. Эта статья появилась в результате моего ресерча по этому вопросу.

В данной статье я напишу алгоритм рассчета доверительных интервалов для:
— Среднего значения
— Медианы (через нормальную аппроксимацию к биномиальному распределению)
— Доли (через нормальную аппроксимацию к биномиальному распределению)

Красной нитью публикации проходит мысль о всепроникаемости нормального распределения и его способности помочь оценить практически всё. Например, в задаче нахождения доверительного интервала для медианы нормальное распределение позволило получить такую элегантную формулу, зависящую лишь от корня из размера выборки, что она до сих пор вызывает у меня восхищение.

>>>

Я отметил данную статью, как туториал. В ней я буду сконцентрирован на рассчетах! Я не буду уделять внимание определениям выборки, генеральной совокупности, стандартного отклонения, α уровня значимости и других базовых определений статистики. Касательно определений, а также интерпретации полученных доверительных интервалов, я отссылаю к курсу "Основы Статистики" Анатолия Карпова.

Вольный пересказ Карповской интерпретации доверительного интервала, представленной на курсе и в других видео:

Доверительный интервал (например, 95 процентный) — это вычисленный промежуток, в котором по нашему предположению находится среднее(*) значение признака в генеральной совокупности. Если многократно проводить эксперимент (по вытягиванию выборки из генеральной совокупности и рассчету среднего по ней), то среднее значение признака в генеральной совокупности будет попадать в найденный доверительный интервал в 95% случаев. В каком-то смысле это то же самое, что вероятность нахождения среднего значения генеральной совокупности в найденном промежутке.

(*) среднее/медианное/долевое

1. Доверительный интервал для среднего (База)

В выборке размером 100 мы получили средний возраст 30 лет со стандартным отклонением 10. Оцените 95% доверительный интервал для среднего возраста в генеральной совокупности?

Известно, что распределение выборочных средних из любого распределения является нормальным. То есть, при любом распределении возраста в генеральной совокупности, если мы будем методично извлекать выборки по 100 человек, считать средний возраст и наносить на график, то распределение будет нормальным:

Рисунок 1: Визуализация нормального распределения выборочных средних.
Рисунок 1: Визуализация нормального распределения выборочных средних.

При многократном повторении эксперимента с рассчетом среднего, мы будем получать выборочные средние, 95% которых (для уровня значимости α=0.05) укладываются в промежуток:

\overline{x_{general}}  ± z_{\alpha} \cdot \frac{\sigma_{general}}{\sqrt{n}}

z(α) —  это некоторое пороговое значение для стандартного нормального распределения, такое, что 95% вытянутых из распределения данных будут по модулю меньше z(α).

  • Для 95%-уровня значимости z = 1.96,

  • Для 99% уровня значимости z = 2.32

  • Для 99.9% уровня значимости z = 3.09

Рисунок 2. Визуализация нахождения порогового значения стандартного нормального распределения, которое ограничивает 1-α (95%) данных распределения.
Рисунок 2. Визуализация нахождения порогового значения стандартного нормального распределения, которое ограничивает 1-α (95%) данных распределения.

Если сделать допущение о примерном равенстве генерального и выборочоного стандартных отклонений, то есть σ(general) ≈ σ, то получим доверительный интервал для генерального среднего:

\boxed{\overline{x}  ± z_{\alpha} \cdot \frac{\sigma}{\sqrt{n}}}

где:

  • x — среднее значение численного признака в выборке

  • σ — стандартное отклонение признака в выборке (несмещенная оценка)

  • n — размер выборки

  • z(α) — коэффициент соответствующий значению на графике стандартного нормального распределения, которое ограничивает 1-α (95%) набор данных внутри промежутка (-z, +z)

Ответ в нашей задаче — это 30 ± 1.96 × 10/10 = 30 ± 2

2. Доверительный интервал для медианы

Посчитайте 95-% доверительный интервал для медианы по выборке размером 10 элементов: [2, 4, 7, 10, 11, 12, 14, 17, 18, 20]

Эта задача в каком-то смысле математически проще предыдущей, потому что в ней мы апприори знаем как выглядит распределение местоположения генеральной медианы по выборке любого размера. Мы знаем центр этого распределения и его дисперсию (в то время как в ситуации со средним, мы не знаем ничего).

  • Вероятность случайно выбранного числа быть меньше медианы равняется 1/2.

  • Вероятность того, что в отсортированном массиве все числа до числа с индексом k включительно меньше медианы, а все последующие больше — подчиняется биномиальному распределению. Это то же самое, что вероятность получить выборку из n элементов, у которой k чисел меньше медианы, а n-k чисел больше.

Рисунок 3: Визуализация распределения генеральной медианы по выборке размером n элементов
Рисунок 3: Визуализация распределения генеральной медианы по выборке размером n элементов

Напишем приближение нормальным распределением (раздел статьи Википедии про биномиальное распределение с нормальной аппрокисмацией):

Bin[n, p=1/2](k) \sim N\Big[\mu=n \cdot 1/2, \sigma=\sqrt{n\cdot 1/2 \cdot (1-1/2)} \Big](k)

Доверительный интервал для медианы строится на основе индексов исходного массива:

\boxed{indexes = \frac{n}{2} ± z_{alpha} \cdot \sqrt{n \cdot 1/2 \cdot (1-1/2)}}

Где:

  • n — размер данного массива

  • 1/2 — вероятность, что случайно выбранное число будет больше или меньше медианы (по данной формуле можно также оценить какой-нибудь квантиль), тогда вместо 1/2 будет другая вероятность

  • z(α) — коэффициент соответствующий значению на графике стандартного нормального распределения, которое ограничивает 1-α (95%) набор данных внутри промежутка (-z, +z)

Формулу можно упростить, в результате чего получим:

indexes = \frac{n}{2} ± \frac{z_{alpha}}{2} \cdot \sqrt{n}

Для 95% доверительного интервала z(α=0.05) = 2 и мы получаем приближенные индексы левого и правого края:

\boxed{indexes = \frac{n}{2} ± \sqrt{n}}

В нашем случае это 5 ± 3.2, то есть доверительный интервал для медианы примерно равен (массив[индекс = 2], массив[индекс = 8]), то есть, (4, 18). Поскольку выборка у нас маленькая, наш 95% интервал соответствует 98%, рассчитанному точно по биномиальному распределению.

Можно заметить, что распределение у нас симметрично относительно (n-1)/2. Более точно можно оценивать медиану именно так, но в этом нет необходимости...

  • Формула с корнем из размера выборки — это реально формула для пацанов и пацанесс. Вас спрашивают, честная ли монетка, которая на 1000 наблюдениях дает 390 орлов. Вы находите 95% доверительный интервал честной монетки как 500 ± 100 (корень из 1000) и говорите, что монетка из задачи нечестная. И больше не надо вообще ничего. Вся статистика с ее хи квадратами и биномиальными распределениями с рассчетом сочетаний стягивается в вычисление квадратного корня.

3. Доверительный интервал для доли

В выборке размером 100 мы получили 45 мальчиков. Постройте 95-% доверительный интервал для доли мальчиков в генеральной совокупности.

Если в генеральной совокупности доля признака p (general), то вероятность получить долю p (получить k мальчиков) в выборке размером n равна:

Bin(p=p_{general}, n=100, k)

Распределение количества мальчиков в выборке размером n подчиняется биномиальному распрелелению. Для этого распределения можно посчитать 95%-доверительный интервал. Чтобы было проще считать, удобно воспользоваться аппроксимацией биномиального распределения нормальным:

Bin[n, p_{general}](k) \sim N\Big[\mu=n \cdot p_{general}, \sigma=\sqrt{n\cdot p_{general} \cdot (1-p_{general})} \Big](k)

95% значений доверительного интервала для нормального распределения будет содержаться в промежутке:

n\cdot p_{general}  ± z_{\alpha} \cdot \sqrt{n\cdot p_{general} \cdot (1-p_{general})}

Если разделить все уравнение на n, потом сделать допущение о примерном равенстве генерального и выборочного стандартных отклонений, то есть σ(general) ≈ σ в терминах нормального распределения, то можно получить доверительный интервал для генеральной доли:

\boxed{p ± z_{\alpha} \cdot \sqrt{\frac{p \cdot (1-p)}{n}}}

Где:

  • p — доля признака в данной выборке

  • n — размер выборки

  • z(α) — коэффициент соответствующий значению на графике стандартного нормального распределения, которое ограничивает 1-α (95%) набор данных внутри промежутка (-z, +z)

Интервал, который мы получили называется доверительным интервалом по Уальду.
С проблемами нормального приближения к биномиальному распределению можно ознакомиться в статье Википедии.

Получим 0.45 ± 1.96 × sqrt(0.45 × 0.55 / 100) ≈ 0.45 ± 0.1.

Вместо заключения:

Хочется также написать про применение поправки непрерывноси — поправки Йетса — к оценке доверительного интервала для долей. Есть гипотеза, что ее можно применить для маленьких долей в маленьких выборках, подправив параметры нормального распределения или же коэффициент, соответствующий уровню значимости.

Кроме самих доверительных интервалов важно уметь находить количество данных, необходимое для их достижения. Об этом я напишу в следующей статье.

Комментарии (2)


  1. ENick
    11.11.2024 10:29

    "Основным научным результатом публикации является всепроникаемость нормального распределения и возможность оценить с его помощью что угодно ". Сильно сказано!!! Научный результат подразумевает научную новизну. Что Вы сделали нового в этом вопросе??? А давайте начнём с критериев нормальности (их не один десяток) и анализа их применимости к конкретным данным. Начитать надо с этого, а потом, возможно, и "научность" появится или проявится. Советую внимательно почитать вузовские учебники.


    1. volodya_research Автор
      11.11.2024 10:29

      Спасибо за комментарий и ценный совет. Я исправил формуллировку с "научным результатом" на более точную, чтобы вам было комфортнее читать материал.