В настоящей статье развиваются идеи и распространяются методы, изложенные в прошлой публикации «Статистически устойчивый анализ данных: тест Уилкоксона» на случай двух выборок. Это простая, но широко используемая на практике модель, так как даже в более сложных ситуациях целевые показатели часто сопоставляются на двух уровнях.

Анализ модели о сдвиге параметров положения двух генеральных совокупностей начинается с описания свободной от распределения ранговой процедуры Манна-Уитни-Уилкоксона (Mann-Whitney-Wilcoxon, MWW), здесь строятся точечные и интервальные оценки для величины сдвига. Далее кратко описывается метод анализа, основанный на применении score функций и, с его помощью, также проверяется нулевая гипотеза о величине параметре сдвига. В заключение, модель для параметра положения формулируется в виде регрессионной задачи, решение которой также позволяет построить точечную и интервальную оценки для параметра сдвига.

Все изложенные в статье методы проиллюстрированы на сквозном примере, реализованном в виде алгоритмов на языке R.

1. ПустьXиY– две непрерывные случайные величины:F(t)иf(t)обозначают функцию (cdf) и плотность (pdf) распределения случайной величиныX, аG(t)иg(t)обозначают соответственно функцию (cdf) и плотность (pdf) случайной величиныY. Будем говорить, чтоXи Yследуют модели для параметра положения (location model), если для некоторого параметра\Delta, -\infty<\Delta<\inftyимеем

G(t)=F(t-\Delta),~~~~g(t)=f(t-\Delta).

Параметр\Delta– это сдвиг параметра положения случайных величинYиX, например, это может быть разница между медианами или средними (в случае, если средние существуют). Отметим, что предложенная модель предполагает равенство параметров масштаба случайных величинXиY.

2. Рассмотрим две независимые друг от друга выборки, извлеченные в соответствии с выбранной моделью. ПустьX_1,\ldots,X_{n_1}– случайная выборка из генеральной совокупности с законом распределенияX(с функциями cdf и pdfF(t)иf(t)соответственно), иY_1,\ldots,Y_{n_2}– случайная выборка из генеральной совокупности с законом распределенияY(с функциями cdf и pdfF(t-\Delta)иf(t-\Delta)соответственно). Пусть такжеn=n_1+n_2– размер объединённой выборкиX_1,\ldots,X_{n_1},Y_1,\ldots,Y_{n_2}. Рассмотрим гипотезу

H_0:\Delta=0,~~~H_a:\Delta\neq0.

При этом односторонние альтернативы также допустимы.

Далее изложены методы проверки (точный и асимптотический) данной гипотезы, а также обсуждаются подходы для получения оценки параметра сдвига\Delta: точечной оценки и доверительного интервала.

3. Упорядочим элементы выборки по возрастанию, то есть запишем её в виде вариационного ряда. Каждому элементу ряда поставим в соответствие его номер в ряду – ранг. Если несколько элементов ряда совпадают по величине, то каждому из них присваивается ранг, равный среднему арифметическому их номеров. Последний элемент в ранжированной выборке изnэлементов должен иметь рангn. Этот факт можно использовать при проверке правильности ранжирования.

> z <- c(12, 18, 11, 5, 11, 5, 11, 11)
> rank(z)

[1] 7.0 8.0 4.5 1.5 4.5 1.5 4.5 4.5

ПустьR(Y_i)означает рангY_iсреди элементов объединенной выборки, то есть средиX_1,\ldots,X_{n_1},Y_1,\ldots,Y_{n_2}. Тогда статистика теста Уилкоксона имеет вид

T=\sum_{i=1}^{n_2}R(Y_i)

На практике часто используется эквивалентнаяTследующая статистика Манна-Уитни-Уилкоксона (Mann-Whitney-Wilcoxon, MWW). Рассмотрим набор из всехn_1\cdot n_2разностей вида\left\{Y_j-X_i\right\}и пустьT^+– число положительных таких разностей, то есть

T^+=\#_{i,j}\{Y_j-X_i>0\}.

В этом случае, верно равенство

T^+=T-\frac{n_2(n_2+1)}{2}.

Очевидно, что исследуемую двустороннюю гипотезуH_0следует отвергнуть при малых и больших значениях статистикиT. При условииH_0:\Delta=0обе выборки получены из одной и той же генеральной совокупности, поэтому любые наборы рангов равновероятны (например, вероятность того, что подмножество ранговn_2относится к случайной величинеYравна1/C_n^{n_2}). Следовательно, распределение статистикиTпри нулевой гипотезеH_0не зависит (свободно) от распределения генеральной совокупности и точное значение p-value рассчитывается на основе распределенияT(точном распределении рангов).

4. Оценкой параметра сдвига\Deltaв тесте Манна-Уитни-Уилкоксона является медиана выборки, составленной из всехN_d=n_1\cdot n_2парных разностей вида (оценка Ходжеса-Лемана (Hodges-Lehmann))

\hat{\Delta}_W=\mbox{med}_{i,j}\{Y_j-X_i\}.

ПустьD_{(1)}<D_{(2)}<\cdots<D_{(N_d)}вариационный ряд для таких разностей. Если доверительная вероятность равна1-\alphaиc– квантиль уровня\alpha/2распределенияT^+, то есть \alpha/2=P_{H_0}[T^+\leq c], то интервал\left(D_{(c+1)},D_{(N_d-c)}\right)является(1-\alpha)100\%доверительным интервалом для\Delta. Асимптотическим значение дляcявляется величина

c=\frac{n_1n_2-1}{2}-z_{\alpha/2}\sqrt{\frac{n_1n_2(n+1)}{12},}

которая округляется до ближайшего целого и в общем случае довольно близка к фактическому значению.

5. Для примера применим тест Манна-Уитни-Уилкоксона к двум выборкам из t-распределения c5степенями свободы и значением параметра сдвига \Delta=8.

> x <- round(rt(11, 5) * 10 + 42, 1)
> y <- round(rt(9, 5) * 10 + 50, 1)
> x
 [1] 76.6 41.0 59.3 34.9 29.1 45.0 42.6 31.1 32.4 52.5 47.9
> y
 [1] 58.3 47.2 40.1 45.8 62.0 58.7 64.8 48.1 49.5

> wilcox.test(y, x, exact = TRUE, conf.int = TRUE, conf.level = 0.95)

	Wilcoxon rank sum exact test

data:  y and x
W = 72, p-value = 0.09518
alternative hypothesis: true location shift is not equal to 0
95 percent confidence interval:
 -1.0 18.4
sample estimates:
difference in location 
                  10.4

Здесь:T^+=72с p-value0.09518доверительный интервал(-1,18.4)включает истинное значение\Delta=8, точечная оценка равна\hat{\Delta}_W=10.4, доверительная вероятность95\%. По умолчанию p-value основано на точном распределении статистикиT^+для малых выборок (n<50)без «хвостов». В случае выбора аргумента exact = FALSE и correct = FALSE (без корректировки на непрерывность) используется асимптотический метод, изложенный далее. В этом случае значение p-value равно0.08738.

> wilcox.test(y, x, exact = FALSE, correct = FALSE)

	Wilcoxon rank sum test

data:  y and x
W = 72, p-value = 0.08738
alternative hypothesis: true location shift is not equal to 0

6. Рассмотрим функциюa_\varphi(i)=\varphi(i/(n+1)), где функция\varphi(u)(score функция) определена на интервале(0,1)и

\int_0^1\varphi(u)du=0,~~~\int_0^1\varphi^2(u)du=1.

Например,\varphi_{Ns}(u)=\Phi^{-1}(u), где\Phi^{-1}(u)– функция, обратная к функции cdf стандартной нормальной случайной величиныN(0,1). В этом случае преобразование a_{Ns}посредством функции\varphi_{Ns}(Normal score function) ставит в соответствие рангам элементов выборки значения, которые ожидаемы тем, как если бы данные были получены из нормального распределения. Заметим, что в данном определении термин normal score употребляется в смысле rankit, а не в смысле standard score или z-score. Наряду с функцией normal score, возможны другие виды score функций, например\varphi_W(u)=\sqrt{12}[u-(1/2)]задаёт score функцию Уилкоксона.

Для выбранной модели для параметра положения определим следующую функцию переменной\Delta:

S_\varphi(\Delta)=\sum_{j=1}^{n_2}a\varphi[R(Y_j-\Delta)],

гдеa_\varphi– некоторая score функция,R(Y_j-\Delta)– рангиY_j-\DeltaсредиX_1,\ldots,X_{n_1}и Y_1-\Delta,\ldots,Y_{n_2}-\Delta. В этом случае, статистикуS_\varphi=S_\varphi(0)можно использовать для проверки интересующей нас гипотезы:

H_0:\Delta=0,~~~H_a:\Delta>0.

При условии нулевой гипотезыH_0, случайные величиныXиYраспределены одинаково, отсюда следует, что распределение статистикиS_\varphiнезависимо (свободно) от общего распределения генеральной совокупности.

Хотя точное распределениеS_\varphiи может быть получено численно, обычно используют асимптотическое распределение. В условиях нулевой гипотезыH_0распределениеS_\varphi(0)асимптотически нормально, с математическим ожиданием и дисперсией соответственно:

E_{H_0}[S\varphi(0)]=0,~~~\sigma^2_\varphi=Var_{H_0}[S_\varphi(0)]=\frac{n_1n_2}{n(n-1)}\sum_{i=1}^na_\varphi^2(i).

Это позволяет использовать стандартизованную статистикуz_\varphi=S_\varphi(0)/\sigma_\varphiчтобы отвергнуть гипотезуH_0на уровне значимости\alpha, еслиz_\varphi\geq z_\alpha, гдеz_\alpha– квантиль уровня(1-\alpha)стандартного нормального распределения. Двусторонняя и левосторонняя гипотезы проверяются аналогично.

7. В следующей R сессии для данных из рассматриваемого в статье примера представлен расчёт асимптотической статистикиz_\varphiи соответствующее ей значение p-value с использованием score функции Уилкоксона (пакет Rfit).

> x <- c(76.6, 41.0, 59.3, 34.9, 29.1, 45.0, 42.6, 31.1, 32.4, 52.5, 47.9)
> y <- c(58.3, 47.2, 40.1, 45.8, 62.0, 58.7, 64.8, 48.1, 49.5)
> # Объединим выборки x и y
>   z = c(x, y)
>   n1 = length(x)
>   n2 = length(y)
>   n = n1 + n2

> # Выберем в качестве score функции функцию Уилкоксона
>   scores = Rfit::wscores 

> # Найдём соответствующие score значения для рангов выборки z 
>   rs = rank(z)/(n + 1)
>   asg = Rfit::getScores(scores, rs)

> # Найдём значение статистики Sphi при нулевой гипотезе  
>   Sphi = sum(asg[(n1 + 1):n])

> # Найдём дисперсию Sphi
>   asc = Rfit::getScores(scores, 1:n/(n + 1))
>   varphi = ((n1 * n2)/(n * (n - 1))) * sum(asc^2)

> # Найдём значения zphi и p-value 
>   zphi = Sphi/sqrt(varphi)
>   alternative = "two.sided"
>   pvalue <-
+     switch(
+     alternative,
+     two.sided = 2 * (1 - pnorm(abs(zphi))),
+     less = pnorm(zphi),
+     greater = 1 - pnorm(zphi)
+   )

> # Выведем результаты
>   res <- list(Sphi = Sphi, statistic = zphi, p.value = pvalue)
>   with(res, cat("statistic = ", statistic, ", p-value = ", p.value, "\n"))

statistic =  1.709409 , p-value =  0.08737528

Таким образом, результаты точногоT^+=72с p-value 0.0952и асимптотическогоz_W=1.71с p-value0.0874анализа крайне близки: нулевая гипотеза не отвергается на уровне значимости5\%и существует значимая разница в сдвиге параметра положения при уровне значимости10\%.

8. Cформулируем двухвыборочную задачу для параметра положения в виде регрессионной задачи. Пусть\bar{Z}=(X_1,\ldots,X_{n_1},Y_1,\ldots,Y_{n_2})^T,\bar{c}– этоn\times1вектор сi-ым элементом0для1\leq i\leq n_1и1дляn_1+1\leq i\leq n=n_1+n_2. Тогда модель для параметра положения можно записать в виде

Z_i=\alpha+c_i\Delta+e_i,

гдеe_1,\ldots,e_n– независимые, одинаково распределенные случайные величины с плотностью распределенияf(t). Таким образом, подобрав модель регрессии можно оценить параметр сдвига\Delta. При использовании метода наименьших квадратов МНК-оценкой для\Deltaбудет разность\bar{Y}-\bar{X}. При использовании метода, основанного на рангах с использованием score функции Вилкоксона, оценкой для\Deltaбудет уже рассмотренная выше оценка Ходжеса-Лемана – медиана парных разностей.

В следующей R сессии представлены результаты ранговой регрессии для имеющихся данных.

> z = c(x, y)
> ci <- c(rep(0, n1), rep(1, n2))
> fit <- Rfit::rfit(z ~ ci, scores = Rfit::wscores)
> coef(summary(fit))

            Estimate Std. Error  t.value      p.value
(Intercept)     41.8   4.400895 9.498068 1.960951e-08
ci              10.4   5.720594 1.817993 8.574801e-02

Таблица с результатами, наряду с самой оценкой10.4содержит её стандартную ошибку5.72. Используя это, можно, например, построить приблизительный95\%доверительный интервал для сдвига\Delta, основанный на квантиле уровня1-0.05/2 t-распределения сn-2степенями свободы:

> conf.level <- 0.95
> estse <- coef(summary(fit))[2, 1:2]
> alpha <- 1 - conf.level
> alternative = "two.sided"
> tcvs <- switch(
+   alternative,
+   two.sided = qt(1 - alpha / 2, n - 2) * c(-1, 1),
+   less = c(-Inf, qt(1 - alpha, n - 2)),
+   greater = c(qt(alpha, n - 2), Inf)
+ )
> conf.int <- estse[1] + tcvs * estse[2]
> cat(100 * conf.level, " percent confidence interval:\n", conf.int)

95  percent confidence interval:
 -1.618522 22.41852 

Построенные доверительный интервал(-1.62,22.42)несколько шире своего дискретного аналога (-1,18.4), найденного ранее.

Мы рассмотрели два подхода (процедура Манна-Уитни-Уилкоксона и метод score функций) для проверки гипотезы о наличии сдвига у параметров положения двух генеральных совокупностей. Для величины сдвига построены точечная оценка и два типа доверительных интервала.