В настоящей статье развиваются идеи и распространяются методы, изложенные в прошлой публикации «Статистически устойчивый анализ данных: тест Уилкоксона» на случай двух выборок. Это простая, но широко используемая на практике модель, так как даже в более сложных ситуациях целевые показатели часто сопоставляются на двух уровнях.
Анализ модели о сдвиге параметров положения двух генеральных совокупностей начинается с описания свободной от распределения ранговой процедуры Манна-Уитни-Уилкоксона (Mann-Whitney-Wilcoxon, MWW), здесь строятся точечные и интервальные оценки для величины сдвига. Далее кратко описывается метод анализа, основанный на применении score функций и, с его помощью, также проверяется нулевая гипотеза о величине параметре сдвига. В заключение, модель для параметра положения формулируется в виде регрессионной задачи, решение которой также позволяет построить точечную и интервальную оценки для параметра сдвига.
Все изложенные в статье методы проиллюстрированы на сквозном примере, реализованном в виде алгоритмов на языке R.
1. Пустьи– две непрерывные случайные величины:иобозначают функцию (cdf) и плотность (pdf) распределения случайной величины, аиобозначают соответственно функцию (cdf) и плотность (pdf) случайной величины. Будем говорить, чтои следуют модели для параметра положения (location model), если для некоторого параметра, имеем
Параметр– это сдвиг параметра положения случайных величини, например, это может быть разница между медианами или средними (в случае, если средние существуют). Отметим, что предложенная модель предполагает равенство параметров масштаба случайных величини.
2. Рассмотрим две независимые друг от друга выборки, извлеченные в соответствии с выбранной моделью. Пусть– случайная выборка из генеральной совокупности с законом распределения(с функциями cdf и pdfисоответственно), и– случайная выборка из генеральной совокупности с законом распределения(с функциями cdf и pdfисоответственно). Пусть также– размер объединённой выборки. Рассмотрим гипотезу
При этом односторонние альтернативы также допустимы.
Далее изложены методы проверки (точный и асимптотический) данной гипотезы, а также обсуждаются подходы для получения оценки параметра сдвига: точечной оценки и доверительного интервала.
3. Упорядочим элементы выборки по возрастанию, то есть запишем её в виде вариационного ряда. Каждому элементу ряда поставим в соответствие его номер в ряду – ранг. Если несколько элементов ряда совпадают по величине, то каждому из них присваивается ранг, равный среднему арифметическому их номеров. Последний элемент в ранжированной выборке изэлементов должен иметь ранг. Этот факт можно использовать при проверке правильности ранжирования.
> z <- c(12, 18, 11, 5, 11, 5, 11, 11)
> rank(z)
[1] 7.0 8.0 4.5 1.5 4.5 1.5 4.5 4.5
Пустьозначает рангсреди элементов объединенной выборки, то есть среди. Тогда статистика теста Уилкоксона имеет вид
На практике часто используется эквивалентнаяследующая статистика Манна-Уитни-Уилкоксона (Mann-Whitney-Wilcoxon, MWW). Рассмотрим набор из всехразностей видаи пусть– число положительных таких разностей, то есть
В этом случае, верно равенство
Очевидно, что исследуемую двустороннюю гипотезуследует отвергнуть при малых и больших значениях статистики. При условииобе выборки получены из одной и той же генеральной совокупности, поэтому любые наборы рангов равновероятны (например, вероятность того, что подмножество ранговотносится к случайной величинеравна). Следовательно, распределение статистикипри нулевой гипотезене зависит (свободно) от распределения генеральной совокупности и точное значение p-value рассчитывается на основе распределения(точном распределении рангов).
4. Оценкой параметра сдвигав тесте Манна-Уитни-Уилкоксона является медиана выборки, составленной из всехпарных разностей вида (оценка Ходжеса-Лемана (Hodges-Lehmann))
Пустьвариационный ряд для таких разностей. Если доверительная вероятность равнаи– квантиль уровняраспределения, то есть , то интервалявляетсядоверительным интервалом для. Асимптотическим значение дляявляется величина
которая округляется до ближайшего целого и в общем случае довольно близка к фактическому значению.
5. Для примера применим тест Манна-Уитни-Уилкоксона к двум выборкам из t-распределения cстепенями свободы и значением параметра сдвига .
> x <- round(rt(11, 5) * 10 + 42, 1)
> y <- round(rt(9, 5) * 10 + 50, 1)
> x
[1] 76.6 41.0 59.3 34.9 29.1 45.0 42.6 31.1 32.4 52.5 47.9
> y
[1] 58.3 47.2 40.1 45.8 62.0 58.7 64.8 48.1 49.5
> wilcox.test(y, x, exact = TRUE, conf.int = TRUE, conf.level = 0.95)
Wilcoxon rank sum exact test
data: y and x
W = 72, p-value = 0.09518
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
-1.0 18.4
sample estimates:
difference in location
10.4
Здесь:с p-valueдоверительный интервалвключает истинное значение, точечная оценка равна, доверительная вероятность. По умолчанию p-value основано на точном распределении статистикидля малых выборок без «хвостов». В случае выбора аргумента exact = FALSE
и correct = FALSE
(без корректировки на непрерывность) используется асимптотический метод, изложенный далее. В этом случае значение p-value равно.
> wilcox.test(y, x, exact = FALSE, correct = FALSE)
Wilcoxon rank sum test
data: y and x
W = 72, p-value = 0.08738
alternative hypothesis: true location shift is not equal to 0
6. Рассмотрим функцию, где функция(score функция) определена на интервалеи
Например,, где– функция, обратная к функции cdf стандартной нормальной случайной величины. В этом случае преобразование посредством функции(Normal score function) ставит в соответствие рангам элементов выборки значения, которые ожидаемы тем, как если бы данные были получены из нормального распределения. Заметим, что в данном определении термин normal score употребляется в смысле rankit, а не в смысле standard score или z-score. Наряду с функцией normal score, возможны другие виды score функций, напримерзадаёт score функцию Уилкоксона.
Для выбранной модели для параметра положения определим следующую функцию переменной:
где– некоторая score функция,– рангисредии . В этом случае, статистикуможно использовать для проверки интересующей нас гипотезы:
При условии нулевой гипотезы, случайные величиныираспределены одинаково, отсюда следует, что распределение статистикинезависимо (свободно) от общего распределения генеральной совокупности.
Хотя точное распределениеи может быть получено численно, обычно используют асимптотическое распределение. В условиях нулевой гипотезыраспределениеасимптотически нормально, с математическим ожиданием и дисперсией соответственно:
Это позволяет использовать стандартизованную статистикучтобы отвергнуть гипотезуна уровне значимости, если, где– квантиль уровнястандартного нормального распределения. Двусторонняя и левосторонняя гипотезы проверяются аналогично.
7. В следующей R сессии для данных из рассматриваемого в статье примера представлен расчёт асимптотической статистикии соответствующее ей значение p-value с использованием score функции Уилкоксона (пакет Rfit
).
> x <- c(76.6, 41.0, 59.3, 34.9, 29.1, 45.0, 42.6, 31.1, 32.4, 52.5, 47.9)
> y <- c(58.3, 47.2, 40.1, 45.8, 62.0, 58.7, 64.8, 48.1, 49.5)
> # Объединим выборки x и y
> z = c(x, y)
> n1 = length(x)
> n2 = length(y)
> n = n1 + n2
> # Выберем в качестве score функции функцию Уилкоксона
> scores = Rfit::wscores
> # Найдём соответствующие score значения для рангов выборки z
> rs = rank(z)/(n + 1)
> asg = Rfit::getScores(scores, rs)
> # Найдём значение статистики Sphi при нулевой гипотезе
> Sphi = sum(asg[(n1 + 1):n])
> # Найдём дисперсию Sphi
> asc = Rfit::getScores(scores, 1:n/(n + 1))
> varphi = ((n1 * n2)/(n * (n - 1))) * sum(asc^2)
> # Найдём значения zphi и p-value
> zphi = Sphi/sqrt(varphi)
> alternative = "two.sided"
> pvalue <-
+ switch(
+ alternative,
+ two.sided = 2 * (1 - pnorm(abs(zphi))),
+ less = pnorm(zphi),
+ greater = 1 - pnorm(zphi)
+ )
> # Выведем результаты
> res <- list(Sphi = Sphi, statistic = zphi, p.value = pvalue)
> with(res, cat("statistic = ", statistic, ", p-value = ", p.value, "\n"))
statistic = 1.709409 , p-value = 0.08737528
Таким образом, результаты точногос p-value и асимптотическогос p-valueанализа крайне близки: нулевая гипотеза не отвергается на уровне значимостии существует значимая разница в сдвиге параметра положения при уровне значимости.
8. Cформулируем двухвыборочную задачу для параметра положения в виде регрессионной задачи. Пусть,– этовектор с-ым элементомдляидля. Тогда модель для параметра положения можно записать в виде
где– независимые, одинаково распределенные случайные величины с плотностью распределения. Таким образом, подобрав модель регрессии можно оценить параметр сдвига. При использовании метода наименьших квадратов МНК-оценкой длябудет разность. При использовании метода, основанного на рангах с использованием score функции Вилкоксона, оценкой длябудет уже рассмотренная выше оценка Ходжеса-Лемана – медиана парных разностей.
В следующей R сессии представлены результаты ранговой регрессии для имеющихся данных.
> z = c(x, y)
> ci <- c(rep(0, n1), rep(1, n2))
> fit <- Rfit::rfit(z ~ ci, scores = Rfit::wscores)
> coef(summary(fit))
Estimate Std. Error t.value p.value
(Intercept) 41.8 4.400895 9.498068 1.960951e-08
ci 10.4 5.720594 1.817993 8.574801e-02
Таблица с результатами, наряду с самой оценкойсодержит её стандартную ошибку. Используя это, можно, например, построить приблизительныйдоверительный интервал для сдвига, основанный на квантиле уровня t-распределения сстепенями свободы:
> conf.level <- 0.95
> estse <- coef(summary(fit))[2, 1:2]
> alpha <- 1 - conf.level
> alternative = "two.sided"
> tcvs <- switch(
+ alternative,
+ two.sided = qt(1 - alpha / 2, n - 2) * c(-1, 1),
+ less = c(-Inf, qt(1 - alpha, n - 2)),
+ greater = c(qt(alpha, n - 2), Inf)
+ )
> conf.int <- estse[1] + tcvs * estse[2]
> cat(100 * conf.level, " percent confidence interval:\n", conf.int)
95 percent confidence interval:
-1.618522 22.41852
Построенные доверительный интервалнесколько шире своего дискретного аналога , найденного ранее.
Мы рассмотрели два подхода (процедура Манна-Уитни-Уилкоксона и метод score функций) для проверки гипотезы о наличии сдвига у параметров положения двух генеральных совокупностей. Для величины сдвига построены точечная оценка и два типа доверительных интервала.
excoder
Очень интересная и важная тема, спасибо за серию статей. Хотелось бы увидеть более живого изложения, с примерами – когда это применяют, в каких контекстах. В каком смысле вообще оно статистически устойчиво или неустойчиво. В бытность студентом на вес золота были преподаватели, которые цепляли сложными темами безвозвратно. Яркий пример – лекции Босса. Дисклэймер: я сам по образованию математик и применяю статистику на практике.
ampopov Автор
Здравствуйте,
Цель, которую я перед собой поставил при подготовке цикла статей о непараметрических методах статистики – это доступно, так чтобы это было понятно вдумчивому читателю с высшим техническим или экономическим образованием, разъяснить математические предпосылки, лежащие в основе тех или иных робастных статистических процедур.
На мой взгляд, такого рода информации не хватает, хотя именно её наличие обуславливает обдуманное использование статистических методов на практике. В качестве конкретных примеров я привожу алгоритмы программ, изучив которые можно лучше понять, как получены те или иные статистические результаты и какова область их реального применения.
Там, где это возможно я стараюсь приводить примеры использования рассматриваемых моделей в повседневной жизни. Например, в статье «Статистически устойчивый анализа данных: Тест Уилкоксона» однопараметрический тест Уилкоксона применяется для сравнительного ответа на вопрос о величине спроса в двух магазинах на основе данных о продажах.