В книге «Полное собрание законов Мерфи», в разделе «Универсальные законы практики» первый пункт звучит так: «Если в расчеты может вкрасться ошибка, это обязательно произойдет». Примерно про это написано в препринте Райана Томпсона и коллег (https://arxiv.org/abs/2202.12540v2). Они обнаружили, что в психологических исследованиях приличное количество статистических гипотез использует в своих исследованиях понятие «центра распределения» - но вот понимают под этим разные исследователи разные вещи: среднее арифметическое, медиану, моду, усеченное среднее, винсоризированное среднее.
Кажется, что наиболее научным решением в этой ситуации было бы определить четкие критерии – что в каком случае применяется, установить единые правила, после чего в научном мире наступит благодать, полное взаимопонимание и произойдет большой скачок вперед…но авторы уже упомянутого препринта пошли другим путем и попытались создать универсальный статистический тест, работающей не с одной центральной характеристикой, а с их семейством.
Идея определения семейства центральных величин была взята из статьи Питера Хубера «Robust estimation of a location parameter» - если обозначить значение центрального параметра за T и находить его через минимизацию функции ошибки
При разных значениях k решение задачи функции минимизации сводится к задаче нахождения среднего или медианы – но в целом получается некоторое семейство значений T, каждое из которых удовлетворяет двум основным условиям центральности:
1) Отражение функции распределения случайной величины Х относительно ее центра должно сохранять функцию;
2) Сдвиг функции распределения на некоторое количество единиц относительно оси х должен приводить к смещению центра на то же количество единиц.
Это приводит к некоторому усложнению формулировки гипотез – например, простая гипотеза типа «среднее значение показателя равно 300» теперь будет формулироваться так:
Нулевая гипотеза «при некоторых значениях k значение центрального параметра будет равно 300»
Альтернативная гипотеза «ни для каких значений k значение центрального параметра не равно 300».
Для работы с такими гипотезами предназначен пакет familial. Рассмотрим примеры на основе датафрейма PSID7682. Отберем данные за 1976 год и проверим гипотезу о том, что центральное значение заработной платы равно 620:
library(AER)
library(dplyr)
library(familial)
library(MASS)
data("PSID7682")
X1 <- PSID7682 %>% filter(year == 1976)
set.seed(0)
test <- center.test(X1$wage, mu = 620, nboot = 100)
print(test)
plot(test)
Вывод результатов расчетов показывает следующее окно:
Результат интерпретируется крайне просто: вероятность истинности нулевой гипотезы равна 0.71, вероятность истинности альтернативной гипотезы – 0.29
Чтобы посмотреть глазами, можно с помощью plot вывести следующий график:
По оси Ох – значение коэффициента смешения (k в формуле выше), по оси Oy – значение центрального параметра с доверительными интервалами при разных значениях k. Можно визуально отследить, насколько близко значение центрального параметра к требуемому.
Продемонстрируем возможности пакета по проверке гипотез другого типа:
test <- center.test(X1$wage, mu = c(610,630), nboot = 100)
# Нулевая гипотеза: центральное значение заработной платы находится в диапазоне от 610 до 630
x <- PSID7682 %>% filter(year == 1976 & gender == "male") %>% pull(wage)
y <- PSID7682 %>% filter(year == 1976 & gender != "male") %>% pull(wage)
test <- center.test(x, y, paired = FALSE)
# Нулевая гипотеза: разница центральных значений заработной платы среди женщин и мужчин в 1976 году включает 0 (центральные значения равны)
test <- center.test(x, y, mu=c(0,100), paired = FALSE)
# Нулевая гипотеза: разница центральных значений заработной платы среди женщин и мужчин в 1976 году находится в диапазоне от 0 до 100
x <- PSID7682 %>% filter(year == 1976) %>% pull(wage)
y <- PSID7682 %>% filter(year == 1977) %>% pull(wage)
test <- center.test(x, y, paired = TRUE)
# Нулевая гипотеза: разница центральных значений заработной платы в 1976 и 1977 включает 0 (центральные значения равны)
test <- center.test(x, y, mu=c(0,100), paired = TRUE)
# Нулевая гипотеза: разница центральных значений заработной платы в 1976 и 1977 находится в диапазоне от 0 до 100
MaxAkaAltmer
Неужели даже заголовок за собой трудно прочитать и исправить? Я понимаю конечно, что у вас вероятно нет компьютера и опечатка из-за набора с тачскрина, но все же...
acheremuhin Автор
Спасибо за замечание! Поправил