В практике обработки результатов наблюдений распределение генеральной совокупности неизвестно либо (для непрерывных случайных величин) отличается от нормального распределения, так что применение классических статистических методов необоснованно и может привести к ошибкам. В этом случае применяют методы, не зависящие (или свободные) от распределения генеральной совокупности – непараметрические методы.
В статье с единой точки зрения обсуждаются три часто встречающихся на практике одновыборочных теста: тест знаков, t-тест и тест Уилкоксона (Signed-Rank Wilcoxon test) – непараметрической процедуры, мощность которой сравнима с мощностью t-теста в случае нормально распределенной выборки, и превышает мощность t-теста в случае, если распределение выборки имеет «более тяжелые хвосты» по сравнению с нормальным распределением.
1. Определим модель для параметра положения (location model) следующим образом. Пусть – обозначает случайную выборку, полученную по следующему закону
где предполагается, что случайные ошибки – это независимые и одинаково распределенные случайные величины с непрерывной плотностью распределения, симметричной относительно нуля.
2. При условии симметрии любой параметр положения , включая среднее и медиану, равен . Рассмотрим гипотезу
3. Для проверки данной гипотезы рассмотрим три часто используемых на практике теста: тест знаков, t-тест и тест Уилкоксона.
3.1. Классический тест знаков (sign test) основан на статистике
где для соответственно. Пусть
Тогда . Здесь предполагается, что ни одно из значений не равно нулю (на практике, равные нулю значения из выборки исключают, а объем выборки корректируют). При условии , статистика имеет биномиальное распределение с числом испытаний и вероятностью успеха . Пусть – наблюдаемая величина тогда p-value для теста знаков равно , где – функция биномиального распределения с параметрами и (R функция pbinom
возвращает значения cdf для биномиального распределения).
Заметим, что в тесте знаков распределение статистики при нулевой гипотезе не зависит (свободно) от вида распределения .
3.2. Следующий традиционный t-тест (t-test) основан на сумме наблюдений. По аналогии можно записать
Заметим, что распределение статистики зависит от плотности распределения . Обычно t-тест записывают в форме t-отношения
где и соответственно, выборочное среднее и стандартное отклонение. Если выборка получена из нормального распределения, то статистика имеет t-распределение Стьюдента с степенью свободы. Пусть наблюдаемое по выборке значение . Тогда p-value для t-теста равно , где – функция t-распределения Стьюдента c степенью свободы (R функция pt
возвращает значения cdf для t-распределения). Это точное значение p-value в случае нормального распределения, в противном случае это аппроксимация.
3.3. Отличие t-теста от теста знаков состоит в том, что статистика t-теста является функцией расстояний элементов выборки относительно нуля в дополнение к их знакам.
Выбранная нами статистика теста Уилкоксона (signed-rank Wilcoxon test) хороша тем, что использует лишь ранги этих расстояний. Обозначим ранг среди всех , упорядоченных от меньшего значения к большему. Тогда статистика Уилкоксона имеет вид
В противоположность статистике t-теста, статистика , также как и рассмотренная ранее статистика при условии нулевой гипотезы не зависит от вида .
Распределение статистики не может быть выведено в виде законченной формулы и при ее расчете используется итерационный алгоритм. Обычно, наряду со статистикой , составляют сумму рангов положительных элементов выборки , то есть
Тогда p-value для теста Уилкоксона равно , где – функция распределения статистики Уилкоксона для выборки размера (R функция psignrank
возвращает значения cdf распределения ).
4. Техника построения доверительных интервалов широко используется при решении практических задач. Каждый из рассмотренных выше тестов: тест знаков, t-тест и тест Уилкоксона имеет соответствующую оценку и доверительный интервал для параметра положения . Рассмотрим далее имеющиеся результаты.
4.1. Оценкой параметра положения , связанной с тестом знаков является выборочная медиана
Для соответствующий доверительный интервал для с доверительной вероятностью задается в виде , где – -ая порядковая статистика выборки, –квантиль биномиального распределения с параметрами и . Этот доверительный интервал не зависит от вида распределения ошибок . Отметим, что из-за дискретности биномиального распределения для каждого значения существует ограниченный набор значений.
4.2. Оценкой параметра положения , связанной с t-тестом является выборочное среднее . Классический доверительный интервал в этом случае имеет вид , где – квантиль t-распределения Стьюдента с степенью свободы. Данный доверительный интервал зависит от вида распределения ошибок .
4.3. Оценкой параметра положения , связанной с тестом Уилкоксона является оценка Ходжеса-Лемана (Hodges-Lehmann)
Парные средние , называются средними Уолша (Walsh averages) выборки. Пусть упорядоченный набор средних Уолша. Тогда доверительный интервал для имеет вид , где – квантиль signed-rank Wilcoxon распределения. Этот доверительный интервал не зависит от вида распределения ошибок при условии их симметрии относительно нуля. Отметим, что размах значений – множество имеет порядок . Поэтому, для умеренных по размеру выборок, тест Уилкоксона менее зависим от дискретного характера распределения статистики критерия, то есть выбранный уровень значимости в этом случае ближе к найденному.
5. В качестве практического примера рассмотрим данные об объеме продаж (в штуках) для восьми товарных позиций в двух магазинах A и B за неделю. Ответим на вопрос, в каком магазине спрос на товары выше?
Составим выборку, каждый элемент которой представляет собой разницу в продажах соответствующей товарной позиции в магазинах A и B. Пусть характеризует центральное значение выборки. Следующая R сессия показывает результат применения теста Уилкоксона и t-теста для проверки правосторонней гипотезы
> Store_A <- c(82, 69, 73, 43, 58, 56, 76, 65)
> Store_B <- c(63, 42, 74, 37, 51, 43, 80, 62)
> response <- Store_A - Store_B
> wilcox.test(response, alternative = "greater", conf.int = TRUE)
Wilcoxon signed rank exact test
data: response
V = 32, p-value = 0.02734
alternative hypothesis: true location is greater than 0
95 percent confidence interval:
1 Inf
sample estimates:
(pseudo)median
7.75
> t.test(response, alternative = "greater", conf.int = TRUE)
One Sample t-test
data: response
t = 2.3791, df = 7, p-value = 0.02447
alternative hypothesis: true mean is greater than 0
95 percent confidence interval:
1.781971 Inf
sample estimates:
mean of x
8.75
Тест Уилкоксона wilcox.test()
возвращает статистику , p-value теста, оценку Ходжеса-Лемана для и доверительный интервал для . Т-тест t.test()
имеет аналогичный синтаксис и результаты. Как видно, обе процедуры отвергают нулевую гипотезу на уровне , то есть можно сказать, что спрос на продукцию в магазине A выше.
Подведем итог, из трёх рассмотренных в статье тестов для практического применения рекомендуется тест Уилкоксона. Он требует минимум предположений о характере распределения генеральной совокупности, сравним по мощности с t-тестом в случае нормального распределения и превышает мощность t-теста в случае симметричного непрерывного распределения с «более тяжелыми хвостами» по сравнению с нормальным распределением.