Как определить размер выборки? / forpes.ru

Главная
Как определить размер выборки?

Как определить размер выборки? +18

11.10.2017 14:00

temujin 16 5600 Источник

Статистика знает все. И Ильф и Е. Петров, «12 Стульев»

Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного — чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.

Графики

Теоретический минимум

Не будет лишним освежить память, эти термины нам пригодятся далее.

Популяция – Множество всех объектов, среди которых проводится исследования.
Выборка – Подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании.
Ошибка первого рода — (?) Вероятность отвергнуть нулевую гипотезу, в то время как она верна.
Ошибка второго рода — (?) Вероятность не отвергнуть нулевую гипотезу, в то время как она ложна.
1 — ? — Статистическая мощность критерия.
?₀ и ?₁ — Средние значения при нулевой и альтернативной гипотезе.

Сравнение двух альтернативных средних значений

Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.

Характеристики распределения и стандартное отклонение

Исходная популяция, также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме.

Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом. Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия. Так например 100(1-?)% доверительный интервал для ? будет таким (Ур. 1).

$\hat{\mu} \pm t_{{\alpha/2};df}\sqrt{\frac{\hat\sigma^2}{n}}$

df — Степень свободы = n — 1, от английского «degrees of freedom».
$t_{{\alpha/2};df}$ — Двусторонняя критическая величина, t-критерий Стьюдента.

Второе из умозаключений — проверка гипотезы. Оно может быть примерно таким.

H₀: ? = h
H₁: ? > h
H₂: ? < h

С доверительным интервалом 100(1-?) для ? можно сделать выбор в пользу H₁ и H₂ :

Если нижний предел доверительного интервала 100(1-?) < h, то тогда отвергаем H₀ в пользу H₂.
Если верхний предел доверительного интервала 100(1-?) > h, то тогда отвергаем H₀ в пользу H₁.
Если доверительного интервала 100(1-?) включает в себя h, то тогда мы не может отвергнуть H₀ и такой результат считается неопределенным.

Если нам нужно проверить значение ? для одной выборки из общей совокупности, то критерий обретет вид.

Отбраковать H₀ и принять H₁: ? > h, если $t > t_{{\alpha/2};df}$ .
Отбраковать H₀ и принять H₂: ? < h, если $t < t_{{\alpha/2};df}$ .
Невозможно отвергнуть H₀, если $|t| < t_{{\alpha/2};df}$ .

Где $t = (\hat{\mu} - h)/\sqrt\frac{\hat\sigma^2}{n}$ .

Доверительный интервал, погрешность и размер выборки

Возьмем самое первое уравнение и выразим оттуда ширину доверительного интервала (Ур. 2).

$w = 2t_{{\alpha/2};df}\sqrt{\frac{\hat\sigma^2}{n}}$

В некоторых случаях мы можем заменить t-статистику Стьюдента на z стандартного нормального распределения. Еще одним упрощением заменим половину от w на погрешность измерения E. Тогда наше уравнения примет вид (Ур. 3).

$E = z_{\alpha/2}\sqrt{\frac{\hat\sigma^2}{n}}$

Как видим погрешность действительно уменьшается вместе с ростом количества входных данных. Откуда легко вывести искомое (Ур. 4).

$n = \left[\frac{z_{\alpha/2}*\sigma}{E}\right]^2$

Практика — считаем с R

Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.

H₀: ? = 1
H₁: ? > 1

Насекомые	0	1	2	3	4	5	6
Ловушки	10	9	5	5	1	2	1

> x <- read.table("/tmp/tcounts.txt")
> y = unlist(x, use.names="false")
> mean(z);sd(z)
[1] 1.636364
[1] 1.654883

Обратите внимание, что среднее и стандартное отклонение практически равны, что естественно для распределения Пуассона. Доверительный интервал 95% для t-статистики Стьюдента и df=32.

> qt(.975, 32)
[1] 2.036933

и наконец получаем критический интервал для среднего значения: 1.05 — 2.22.

> ?=mean(z)
> st = qt(.975, 32)
> ? + st * sd(z)/sqrt(33)
[1] 2.223159
> ? - st * sd(z)/sqrt(33)
[1] 1.049568

В итоге, следует отбраковать H₀ и принять H₁ так как с вероятностью 95%, ? > 1.

В том же самом примере, если принять, что нам известно действительное стандартное отклонение — ?, а не ее оценка полученная с помощью случайной выборки, можно рассчитать необходимое n для данной погрешности. Посчитаем для E=0.5.

> za2 = qnorm(.975)
> (za2*sd(z)/.5)^2
[1] 42.08144

Поправка на ветер

На самом деле нет никаких причин, полагать, что нам будет известна ? (дисперсия), в то время как ? (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной ? (Ур. 5).

$n = 4\tilde\sigma^2 (z_{\alpha/2}/w)^2 + z^2_{\alpha/2}/2$

Обратите внимание, что ? в последнем уравнении не с шапкой (^), а тильдой (~). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки — $\hat\sigma$ , и вместо нее мы используем запланированное — $\tilde\sigma$ . Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.

А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как $z_{\alpha/2} < t_{{\alpha/2};df}$ , необходима поправка Гюнтера.

Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.

Использованные материалы

Комментарии (16)

vanxant
11.10.2017 23:09
#10467590
Терминологическая поправка: буржуйское population в смысле статистики на русском называется не популяцией, а генеральной совокупностью.
1. temujin Автор
  11.10.2017 23:12
  #10467592
  Честно говоря меня тоже одолевали сомнения, хотелось в одно слово перевести.

dem0n3d
12.10.2017 00:17
#10467636
Популяция, Выборка, Ошибка первого рода, Ошибка второго рода, Синхрофазотрон… Не статья, а конспект едва ли не целого семестра по математической статистике. Никому, кроме (бывших) слушателей этих лекций, она понятна не будет.
1. rokobungi
  12.10.2017 09:31
  #10467892
  +2
  Как, впрочем, и многим бывшим слушателям.
1. Stochkas
  12.10.2017 17:27
  #10469422
  както все скомканно.
1. temujin Автор
  12.10.2017 17:48
  #10469474
  Это преувеличение. Те, кто занимаются случайными выборками имеют представление о предмете. Те же, кто первый раз в этим сталкивается, могут не понять о чем идет речь. Готов подсказать, если есть интерес, но непонятно кое-что.
  1. rokobungi
    12.10.2017 22:22
    #10469964
    Я не понаслышке знаком с обработкой случайных выборок и разработке математических моделей на основании результатов анализа. Дисперсия, критерий Стьюдента, СКО для меня не пустой звук. Но Ваше определение доверительного интервала вынудило меня приостановить чтение в этом месте и перечитать его ещё раз. Нет, я понял, что Вы имели ввиду, но определение написано очень, простите, заумно, и никогда Вы таким определением не объясните простому обывателю, что такое «доверительный интервал».
    
    temujin Автор
    12.10.2017 23:49
    #10470102
    Думаю, что простому обывателю в самом деле будет непонятно. Я написал это по следам практической задачи, которую мне пришлось решать, и это скорее для тех, у кого подобная задача имеется.

Andronas
12.10.2017 09:32
#10467894
Было бы неплохо разобрать и сделать несколько вводных лекций по следам этой лекции

Leg3nd
12.10.2017 13:44
#10468602
Я чего-то не понимаю или как среднее арифметическое из выборки: 10, 9, 5, 5, 1, 2, 1 может быть 1.636364? Ведь (10+9+5+5+1+2+1) / 7 = 4.714
1. temujin Автор
  12.10.2017 13:49
  #10468620
  Таблица означает следующее:
  
  10 ловушек с 0 насекомыми:
  
  9 ловушек с 1 насекомым
  
  5 — с 2,
  
  5 — с 3
  
  1 — с 4
  
  2 — с 5
  
  1 — с 6
  
  получается 54 экземпляра делить на 33 ловушки.
  1. Leg3nd
    12.10.2017 14:24
    #10468756
    А, теперь понятно. Хорошо бы описание колонок таблицы указать, так как я подумал, что заголовок колонки — это номер ловушки, а значение — количество насекомых внутри.
    
    temujin Автор
    12.10.2017 17:21
    #10469410
    Спасибо, добавил описание полей.

Recloser
12.10.2017 23:42
#10470088
А что за переменная b в четвертой строчке первого блока кода:
```
> x <- read.table("/tmp/tcounts.txt")
> y = unlist(x, use.names="false")
> 
> z <- c(b)
> mean(z)
[1] 1.636364
> mean(z);sd(z)
[1] 1.636364
[1] 1.654883
```
Получается переменная z никак не связана с x и y?
1. temujin Автор
  12.10.2017 23:44
  #10470092
  Да, это опечатка, спасибо что заметили. На самом деле z даже не нужно.
  
  > x <- read.table("/tmp/tcounts.txt") > y = unlist(x, use.names="false") > mean(y);sd(y) [1] 1.636364 [1] 1.654883

Recloser
13.10.2017 13:54
#10471034
А в статье снова неувязка :) поменяйте тогда y на z во второй строчке.
(Простите, веткой выше нужно комментарий поставить)

Как определить размер выборки? +18

Теоретический минимум

Доверительный интервал, погрешность и размер выборки

Практика — считаем с R

Поправка на ветер

Использованные материалы

Комментарии (16)

temujin Автор

temujin Автор

temujin Автор

temujin Автор

temujin Автор

temujin Автор