В настоящей статье развиваются идеи и распространяются методы, изложенные в прошлой публикации «Статистически устойчивый анализ данных: тест Уилкоксона» на случай двух выборок. Это простая, но широко используемая на практике модель, так как даже в более сложных ситуациях целевые показатели часто сопоставляются на двух уровнях.
Анализ модели о сдвиге параметров положения двух генеральных совокупностей начинается с описания свободной от распределения ранговой процедуры Манна-Уитни-Уилкоксона (Mann-Whitney-Wilcoxon, MWW), здесь строятся точечные и интервальные оценки для величины сдвига. Далее кратко описывается метод анализа, основанный на применении score функций и, с его помощью, также проверяется нулевая гипотеза о величине параметре сдвига. В заключение, модель для параметра положения формулируется в виде регрессионной задачи, решение которой также позволяет построить точечную и интервальную оценки для параметра сдвига.
Все изложенные в статье методы проиллюстрированы на сквозном примере, реализованном в виде алгоритмов на языке R.
1. Пустьи
– две непрерывные случайные величины:
и
обозначают функцию (cdf) и плотность (pdf) распределения случайной величины
, а
и
обозначают соответственно функцию (cdf) и плотность (pdf) случайной величины
. Будем говорить, что
и
следуют модели для параметра положения (location model), если для некоторого параметра
,
имеем
Параметр– это сдвиг параметра положения случайных величин
и
, например, это может быть разница между медианами или средними (в случае, если средние существуют). Отметим, что предложенная модель предполагает равенство параметров масштаба случайных величин
и
.
2. Рассмотрим две независимые друг от друга выборки, извлеченные в соответствии с выбранной моделью. Пусть– случайная выборка из генеральной совокупности с законом распределения
(с функциями cdf и pdf
и
соответственно), и
– случайная выборка из генеральной совокупности с законом распределения
(с функциями cdf и pdf
и
соответственно). Пусть также
– размер объединённой выборки
. Рассмотрим гипотезу
При этом односторонние альтернативы также допустимы.
Далее изложены методы проверки (точный и асимптотический) данной гипотезы, а также обсуждаются подходы для получения оценки параметра сдвига: точечной оценки и доверительного интервала.
3. Упорядочим элементы выборки по возрастанию, то есть запишем её в виде вариационного ряда. Каждому элементу ряда поставим в соответствие его номер в ряду – ранг. Если несколько элементов ряда совпадают по величине, то каждому из них присваивается ранг, равный среднему арифметическому их номеров. Последний элемент в ранжированной выборке изэлементов должен иметь ранг
. Этот факт можно использовать при проверке правильности ранжирования.
> z <- c(12, 18, 11, 5, 11, 5, 11, 11)
> rank(z)
[1] 7.0 8.0 4.5 1.5 4.5 1.5 4.5 4.5
Пустьозначает ранг
среди элементов объединенной выборки, то есть среди
. Тогда статистика теста Уилкоксона имеет вид
На практике часто используется эквивалентнаяследующая статистика Манна-Уитни-Уилкоксона (Mann-Whitney-Wilcoxon, MWW). Рассмотрим набор из всех
разностей вида
и пусть
– число положительных таких разностей, то есть
В этом случае, верно равенство
Очевидно, что исследуемую двустороннюю гипотезуследует отвергнуть при малых и больших значениях статистики
. При условии
обе выборки получены из одной и той же генеральной совокупности, поэтому любые наборы рангов равновероятны (например, вероятность того, что подмножество рангов
относится к случайной величине
равна
). Следовательно, распределение статистики
при нулевой гипотезе
не зависит (свободно) от распределения генеральной совокупности и точное значение p-value рассчитывается на основе распределения
(точном распределении рангов).
4. Оценкой параметра сдвигав тесте Манна-Уитни-Уилкоксона является медиана выборки, составленной из всех
парных разностей вида (оценка Ходжеса-Лемана (Hodges-Lehmann))
Пустьвариационный ряд для таких разностей. Если доверительная вероятность равна
и
– квантиль уровня
распределения
, то есть
, то интервал
является
доверительным интервалом для
. Асимптотическим значение для
является величина
которая округляется до ближайшего целого и в общем случае довольно близка к фактическому значению.
5. Для примера применим тест Манна-Уитни-Уилкоксона к двум выборкам из t-распределения cстепенями свободы и значением параметра сдвига
.
> x <- round(rt(11, 5) * 10 + 42, 1)
> y <- round(rt(9, 5) * 10 + 50, 1)
> x
[1] 76.6 41.0 59.3 34.9 29.1 45.0 42.6 31.1 32.4 52.5 47.9
> y
[1] 58.3 47.2 40.1 45.8 62.0 58.7 64.8 48.1 49.5
> wilcox.test(y, x, exact = TRUE, conf.int = TRUE, conf.level = 0.95)
Wilcoxon rank sum exact test
data: y and x
W = 72, p-value = 0.09518
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
-1.0 18.4
sample estimates:
difference in location
10.4
Здесь:с p-value
доверительный интервал
включает истинное значение
, точечная оценка равна
, доверительная вероятность
. По умолчанию p-value основано на точном распределении статистики
для малых выборок
без «хвостов». В случае выбора аргумента
exact = FALSE
и correct = FALSE
(без корректировки на непрерывность) используется асимптотический метод, изложенный далее. В этом случае значение p-value равно.
> wilcox.test(y, x, exact = FALSE, correct = FALSE)
Wilcoxon rank sum test
data: y and x
W = 72, p-value = 0.08738
alternative hypothesis: true location shift is not equal to 0
6. Рассмотрим функцию, где функция
(score функция) определена на интервале
и
Например,, где
– функция, обратная к функции cdf стандартной нормальной случайной величины
. В этом случае преобразование
посредством функции
(Normal score function) ставит в соответствие рангам элементов выборки значения, которые ожидаемы тем, как если бы данные были получены из нормального распределения. Заметим, что в данном определении термин normal score употребляется в смысле rankit, а не в смысле standard score или z-score. Наряду с функцией normal score, возможны другие виды score функций, например
задаёт score функцию Уилкоксона.
Для выбранной модели для параметра положения определим следующую функцию переменной:
где– некоторая score функция,
– ранги
среди
и
. В этом случае, статистику
можно использовать для проверки интересующей нас гипотезы:
При условии нулевой гипотезы, случайные величины
и
распределены одинаково, отсюда следует, что распределение статистики
независимо (свободно) от общего распределения генеральной совокупности.
Хотя точное распределениеи может быть получено численно, обычно используют асимптотическое распределение. В условиях нулевой гипотезы
распределение
асимптотически нормально, с математическим ожиданием и дисперсией соответственно:
Это позволяет использовать стандартизованную статистикучтобы отвергнуть гипотезу
на уровне значимости
, если
, где
– квантиль уровня
стандартного нормального распределения. Двусторонняя и левосторонняя гипотезы проверяются аналогично.
7. В следующей R сессии для данных из рассматриваемого в статье примера представлен расчёт асимптотической статистикии соответствующее ей значение p-value с использованием score функции Уилкоксона (пакет
Rfit
).
> x <- c(76.6, 41.0, 59.3, 34.9, 29.1, 45.0, 42.6, 31.1, 32.4, 52.5, 47.9)
> y <- c(58.3, 47.2, 40.1, 45.8, 62.0, 58.7, 64.8, 48.1, 49.5)
> # Объединим выборки x и y
> z = c(x, y)
> n1 = length(x)
> n2 = length(y)
> n = n1 + n2
> # Выберем в качестве score функции функцию Уилкоксона
> scores = Rfit::wscores
> # Найдём соответствующие score значения для рангов выборки z
> rs = rank(z)/(n + 1)
> asg = Rfit::getScores(scores, rs)
> # Найдём значение статистики Sphi при нулевой гипотезе
> Sphi = sum(asg[(n1 + 1):n])
> # Найдём дисперсию Sphi
> asc = Rfit::getScores(scores, 1:n/(n + 1))
> varphi = ((n1 * n2)/(n * (n - 1))) * sum(asc^2)
> # Найдём значения zphi и p-value
> zphi = Sphi/sqrt(varphi)
> alternative = "two.sided"
> pvalue <-
+ switch(
+ alternative,
+ two.sided = 2 * (1 - pnorm(abs(zphi))),
+ less = pnorm(zphi),
+ greater = 1 - pnorm(zphi)
+ )
> # Выведем результаты
> res <- list(Sphi = Sphi, statistic = zphi, p.value = pvalue)
> with(res, cat("statistic = ", statistic, ", p-value = ", p.value, "\n"))
statistic = 1.709409 , p-value = 0.08737528
Таким образом, результаты точногос p-value
и асимптотического
с p-value
анализа крайне близки: нулевая гипотеза не отвергается на уровне значимости
и существует значимая разница в сдвиге параметра положения при уровне значимости
.
8. Cформулируем двухвыборочную задачу для параметра положения в виде регрессионной задачи. Пусть,
– это
вектор с
-ым элементом
для
и
для
. Тогда модель для параметра положения можно записать в виде
где– независимые, одинаково распределенные случайные величины с плотностью распределения
. Таким образом, подобрав модель регрессии можно оценить параметр сдвига
. При использовании метода наименьших квадратов МНК-оценкой для
будет разность
. При использовании метода, основанного на рангах с использованием score функции Вилкоксона, оценкой для
будет уже рассмотренная выше оценка Ходжеса-Лемана – медиана парных разностей.
В следующей R сессии представлены результаты ранговой регрессии для имеющихся данных.
> z = c(x, y)
> ci <- c(rep(0, n1), rep(1, n2))
> fit <- Rfit::rfit(z ~ ci, scores = Rfit::wscores)
> coef(summary(fit))
Estimate Std. Error t.value p.value
(Intercept) 41.8 4.400895 9.498068 1.960951e-08
ci 10.4 5.720594 1.817993 8.574801e-02
Таблица с результатами, наряду с самой оценкойсодержит её стандартную ошибку
. Используя это, можно, например, построить приблизительный
доверительный интервал для сдвига
, основанный на квантиле уровня
t-распределения с
степенями свободы:
> conf.level <- 0.95
> estse <- coef(summary(fit))[2, 1:2]
> alpha <- 1 - conf.level
> alternative = "two.sided"
> tcvs <- switch(
+ alternative,
+ two.sided = qt(1 - alpha / 2, n - 2) * c(-1, 1),
+ less = c(-Inf, qt(1 - alpha, n - 2)),
+ greater = c(qt(alpha, n - 2), Inf)
+ )
> conf.int <- estse[1] + tcvs * estse[2]
> cat(100 * conf.level, " percent confidence interval:\n", conf.int)
95 percent confidence interval:
-1.618522 22.41852
Построенные доверительный интервалнесколько шире своего дискретного аналога
, найденного ранее.
Мы рассмотрели два подхода (процедура Манна-Уитни-Уилкоксона и метод score функций) для проверки гипотезы о наличии сдвига у параметров положения двух генеральных совокупностей. Для величины сдвига построены точечная оценка и два типа доверительных интервала.
excoder
Очень интересная и важная тема, спасибо за серию статей. Хотелось бы увидеть более живого изложения, с примерами – когда это применяют, в каких контекстах. В каком смысле вообще оно статистически устойчиво или неустойчиво. В бытность студентом на вес золота были преподаватели, которые цепляли сложными темами безвозвратно. Яркий пример – лекции Босса. Дисклэймер: я сам по образованию математик и применяю статистику на практике.
ampopov Автор
Здравствуйте,
Цель, которую я перед собой поставил при подготовке цикла статей о непараметрических методах статистики – это доступно, так чтобы это было понятно вдумчивому читателю с высшим техническим или экономическим образованием, разъяснить математические предпосылки, лежащие в основе тех или иных робастных статистических процедур.
На мой взгляд, такого рода информации не хватает, хотя именно её наличие обуславливает обдуманное использование статистических методов на практике. В качестве конкретных примеров я привожу алгоритмы программ, изучив которые можно лучше понять, как получены те или иные статистические результаты и какова область их реального применения.
Там, где это возможно я стараюсь приводить примеры использования рассматриваемых моделей в повседневной жизни. Например, в статье «Статистически устойчивый анализа данных: Тест Уилкоксона» однопараметрический тест Уилкоксона применяется для сравнительного ответа на вопрос о величине спроса в двух магазинах на основе данных о продажах.