Недавно на выходном оффере в Авито спрашивали задачку про нахождение доверительного интервала для медианы. Эта статья появилась в результате моего ресерча по этому вопросу.
В данной статье я напишу алгоритм рассчета доверительных интервалов для:
— Среднего значения
— Медианы (через нормальную аппроксимацию к биномиальному распределению)
— Доли (через нормальную аппроксимацию к биномиальному распределению)
Красной нитью публикации проходит мысль о всепроникаемости нормального распределения и его способности помочь оценить практически всё. Например, в задаче нахождения доверительного интервала для медианы нормальное распределение позволило получить такую элегантную формулу, зависящую лишь от корня из размера выборки, что она до сих пор вызывает у меня восхищение.
>>>
Я отметил данную статью, как туториал. В ней я буду сконцентрирован на рассчетах! Я не буду уделять внимание определениям выборки, генеральной совокупности, стандартного отклонения, α уровня значимости и других базовых определений статистики. Касательно определений, а также интерпретации полученных доверительных интервалов, я отссылаю к курсу "Основы Статистики" Анатолия Карпова.
Вольный пересказ Карповской интерпретации доверительного интервала, представленной на курсе и в других видео:
Доверительный интервал (например, 95 процентный) — это вычисленный промежуток, в котором по нашему предположению находится среднее(*) значение признака в генеральной совокупности. Если многократно проводить эксперимент (по вытягиванию выборки из генеральной совокупности и рассчету среднего по ней), то среднее значение признака в генеральной совокупности будет попадать в найденный доверительный интервал в 95% случаев. В каком-то смысле это то же самое, что вероятность нахождения среднего значения генеральной совокупности в найденном промежутке.
(*) среднее/медианное/долевое
1. Доверительный интервал для среднего (База)
В выборке размером 100 мы получили средний возраст 30 лет со стандартным отклонением 10. Оцените 95% доверительный интервал для среднего возраста в генеральной совокупности?
Известно, что распределение выборочных средних из любого распределения является нормальным. То есть, при любом распределении возраста в генеральной совокупности, если мы будем методично извлекать выборки по 100 человек, считать средний возраст и наносить на график, то распределение будет нормальным:
При многократном повторении эксперимента с рассчетом среднего, мы будем получать выборочные средние, 95% которых (для уровня значимости α=0.05) укладываются в промежуток:
z(α) — это некоторое пороговое значение для стандартного нормального распределения, такое, что 95% вытянутых из распределения данных будут по модулю меньше z(α).
Для 95%-уровня значимости z = 1.96,
Для 99% уровня значимости z = 2.32
Для 99.9% уровня значимости z = 3.09
Если сделать допущение о примерном равенстве генерального и выборочоного стандартных отклонений, то есть σ(general) ≈ σ, то получим доверительный интервал для генерального среднего:
где:
x — среднее значение численного признака в выборке
σ — стандартное отклонение признака в выборке (несмещенная оценка)
n — размер выборки
z(α) — коэффициент соответствующий значению на графике стандартного нормального распределения, которое ограничивает 1-α (95%) набор данных внутри промежутка (-z, +z)
Ответ в нашей задаче — это 30 ± 1.96 × 10/10 = 30 ± 2
2. Доверительный интервал для медианы
Посчитайте 95-% доверительный интервал для медианы по выборке размером 10 элементов: [2, 4, 7, 10, 11, 12, 14, 17, 18, 20]
Эта задача в каком-то смысле математически проще предыдущей, потому что в ней мы апприори знаем как выглядит распределение местоположения генеральной медианы по выборке любого размера. Мы знаем центр этого распределения и его дисперсию (в то время как в ситуации со средним, мы не знаем ничего).
Вероятность случайно выбранного числа быть меньше медианы равняется 1/2.
Вероятность того, что в отсортированном массиве все числа до числа с индексом k включительно меньше медианы, а все последующие больше — подчиняется биномиальному распределению. Это то же самое, что вероятность получить выборку из n элементов, у которой k чисел меньше медианы, а n-k чисел больше.
Напишем приближение нормальным распределением (раздел статьи Википедии про биномиальное распределение с нормальной аппрокисмацией):
Доверительный интервал для медианы строится на основе индексов исходного массива:
Где:
n — размер данного массива
1/2 — вероятность, что случайно выбранное число будет больше или меньше медианы (по данной формуле можно также оценить какой-нибудь квантиль), тогда вместо 1/2 будет другая вероятность
z(α) — коэффициент соответствующий значению на графике стандартного нормального распределения, которое ограничивает 1-α (95%) набор данных внутри промежутка (-z, +z)
Формулу можно упростить, в результате чего получим:
Для 95% доверительного интервала z(α=0.05) = 2 и мы получаем приближенные индексы левого и правого края:
В нашем случае это 5 ± 3.2, то есть доверительный интервал для медианы примерно равен (массив[индекс = 2], массив[индекс = 8]), то есть, (4, 18). Поскольку выборка у нас маленькая, наш 95% интервал соответствует 98%, рассчитанному точно по биномиальному распределению.
Можно заметить, что распределение у нас симметрично относительно (n-1)/2. Более точно можно оценивать медиану именно так, но в этом нет необходимости...
Формула с корнем из размера выборки — это реально формула для пацанов и пацанесс. Вас спрашивают, честная ли монетка, которая на 1000 наблюдениях дает 390 орлов. Вы находите 95% доверительный интервал честной монетки как 500 ± 100 (корень из 1000) и говорите, что монетка из задачи нечестная. И больше не надо вообще ничего. Вся статистика с ее хи квадратами и биномиальными распределениями с рассчетом сочетаний стягивается в вычисление квадратного корня.
3. Доверительный интервал для доли
В выборке размером 100 мы получили 45 мальчиков. Постройте 95-% доверительный интервал для доли мальчиков в генеральной совокупности.
Если в генеральной совокупности доля признака p (general), то вероятность получить долю p (получить k мальчиков) в выборке размером n равна:
Распределение количества мальчиков в выборке размером n подчиняется биномиальному распрелелению. Для этого распределения можно посчитать 95%-доверительный интервал. Чтобы было проще считать, удобно воспользоваться аппроксимацией биномиального распределения нормальным:
95% значений доверительного интервала для нормального распределения будет содержаться в промежутке:
Если разделить все уравнение на n, потом сделать допущение о примерном равенстве генерального и выборочного стандартных отклонений, то есть σ(general) ≈ σ в терминах нормального распределения, то можно получить доверительный интервал для генеральной доли:
Где:
p — доля признака в данной выборке
n — размер выборки
z(α) — коэффициент соответствующий значению на графике стандартного нормального распределения, которое ограничивает 1-α (95%) набор данных внутри промежутка (-z, +z)
Интервал, который мы получили называется доверительным интервалом по Уальду.
С проблемами нормального приближения к биномиальному распределению можно ознакомиться в статье Википедии.
Получим 0.45 ± 1.96 × sqrt(0.45 × 0.55 / 100) ≈ 0.45 ± 0.1.
Вместо заключения:
Хочется также написать про применение поправки непрерывноси — поправки Йетса — к оценке доверительного интервала для долей. Есть гипотеза, что ее можно применить для маленьких долей в маленьких выборках, подправив параметры нормального распределения или же коэффициент, соответствующий уровню значимости.
Кроме самих доверительных интервалов важно уметь находить количество данных, необходимое для их достижения. Об этом я напишу в следующей статье.
ENick
"Основным научным результатом публикации является всепроникаемость нормального распределения и возможность оценить с его помощью что угодно ". Сильно сказано!!! Научный результат подразумевает научную новизну. Что Вы сделали нового в этом вопросе??? А давайте начнём с критериев нормальности (их не один десяток) и анализа их применимости к конкретным данным. Начитать надо с этого, а потом, возможно, и "научность" появится или проявится. Советую внимательно почитать вузовские учебники.
volodya_research Автор
Спасибо за комментарий и ценный совет. Я исправил формуллировку с "научным результатом" на более точную, чтобы вам было комфортнее читать материал.