В книге «Полное собрание законов Мерфи», в разделе «Универсальные законы практики» первый пункт звучит так: «Если в расчеты может вкрасться ошибка, это обязательно произойдет». Примерно про это написано в препринте Райана Томпсона и коллег (https://arxiv.org/abs/2202.12540v2). Они обнаружили, что в психологических исследованиях приличное количество статистических гипотез использует в своих исследованиях понятие «центра распределения» - но вот понимают под этим разные исследователи разные вещи: среднее арифметическое, медиану, моду, усеченное среднее, винсоризированное среднее.

Кажется, что наиболее научным решением в этой ситуации было бы определить четкие критерии – что в каком случае применяется, установить единые правила, после чего в научном мире наступит благодать, полное взаимопонимание и произойдет большой скачок вперед…но авторы уже упомянутого препринта пошли другим путем и попытались создать универсальный статистический тест, работающей не с одной центральной характеристикой, а с их семейством.

Идея определения семейства центральных величин была взята из статьи Питера Хубера «Robust estimation of a location parameter» - если обозначить значение центрального параметра за T и находить его через минимизацию функции ошибки

При разных значениях k решение задачи функции минимизации сводится к задаче нахождения среднего или медианы – но в целом получается некоторое семейство значений T, каждое из которых удовлетворяет двум основным условиям центральности:

1) Отражение функции распределения случайной величины Х относительно ее центра должно сохранять функцию;

2) Сдвиг функции распределения на некоторое количество единиц относительно оси х должен приводить к смещению центра на то же количество единиц.

Это приводит к некоторому усложнению формулировки гипотез – например, простая гипотеза типа «среднее значение показателя равно 300» теперь будет формулироваться так:

Нулевая гипотеза «при некоторых значениях k значение центрального параметра будет равно 300»

Альтернативная гипотеза «ни для каких значений k значение центрального параметра не равно 300».

Для работы с такими гипотезами предназначен пакет familial. Рассмотрим примеры на основе датафрейма PSID7682. Отберем данные за 1976 год и проверим гипотезу о том, что центральное значение заработной платы равно 620:

library(AER)
library(dplyr)
library(familial)
library(MASS)
data("PSID7682")
X1 <- PSID7682 %>% filter(year == 1976)
set.seed(0)
test <- center.test(X1$wage, mu = 620, nboot = 100)
print(test)
plot(test)

Вывод результатов расчетов показывает следующее окно:

Результат интерпретируется крайне просто: вероятность истинности нулевой гипотезы равна 0.71, вероятность истинности альтернативной гипотезы – 0.29

Чтобы посмотреть глазами, можно с помощью plot вывести следующий график:

По оси Ох – значение коэффициента смешения (k в формуле выше), по оси Oy – значение центрального параметра с доверительными интервалами при разных значениях k. Можно визуально отследить, насколько близко значение центрального параметра к требуемому.

Продемонстрируем возможности пакета по проверке гипотез другого типа:

test <- center.test(X1$wage, mu = c(610,630), nboot = 100) 
# Нулевая гипотеза: центральное значение заработной платы находится в диапазоне от 610 до 630

x <- PSID7682 %>% filter(year == 1976 &  gender == "male") %>% pull(wage)
y <- PSID7682 %>% filter(year == 1976 &  gender != "male") %>% pull(wage)
test <- center.test(x, y, paired = FALSE)
# Нулевая гипотеза: разница центральных значений заработной платы среди женщин и мужчин в 1976 году включает 0 (центральные значения равны)

test <- center.test(x, y, mu=c(0,100), paired = FALSE)
# Нулевая гипотеза: разница центральных значений заработной платы среди женщин и мужчин в 1976 году находится в диапазоне от 0 до 100

x <- PSID7682 %>% filter(year == 1976) %>% pull(wage)
y <- PSID7682 %>% filter(year == 1977) %>% pull(wage)
test <- center.test(x, y, paired = TRUE)
# Нулевая гипотеза: разница центральных значений заработной платы в 1976 и 1977 включает 0 (центральные значения равны)

test <- center.test(x, y, mu=c(0,100), paired = TRUE)
# Нулевая гипотеза: разница центральных значений заработной платы в 1976 и 1977 находится в диапазоне от 0 до 100

Комментарии (2)


  1. MaxAkaAltmer
    28.08.2023 04:41

    Когда надоеДа путаница или о идее пакета familial

    Неужели даже заголовок за собой трудно прочитать и исправить? Я понимаю конечно, что у вас вероятно нет компьютера и опечатка из-за набора с тачскрина, но все же...


    1. acheremuhin Автор
      28.08.2023 04:41
      +1

      Спасибо за замечание! Поправил