Здравствуй, Хабр!

Цель этой статьи — рассказать о роли степеней свободы в статистическом анализе, вывести формулу F-теста для отбора модели при множественной регрессии.

1. Роль степеней свободы (degree of freedom) в статистике

Имея выборочную совокупность, мы можем лишь оценивать числовые характеристики совокупности, параметры выбранной модели. Так не имеет смысла говорить о среднеквадратическом отклонении при наличии лишь одного наблюдения.  Представим линейную регрессионную модель в виде:  

y_{i}\text{=}\,\beta_{0}\text{+}\beta_{1}\text{x}\,\text{+}\,\varepsilon_{i}   (1)

Сколько нужно наблюдений, чтобы построить линейную регрессионную модель? В случае двух наблюдений можем получить идеальную модель (рис.1), однако есть в этом недостаток. Причина в том, что сумма квадратов ошибки (MSE) равна нулю и не можем оценить оценить неопределенность коэффициентов \beta_0,\beta_1. Например не можем построить доверительный интервал для коэффициента наклона по формуле:  

\beta_{1}\pm t_{\left(\frac{\alpha}{2},\,n-2\right)}\cdot\frac{{\sqrt[]{MSE}}\text{}}{\sum\limits_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}\,\, (2)

А значит не можем сказать ничего о целесообразности использования коэффициента \beta_1 в данной регрессионной модели. Необходимо по крайней мере 3 точки. А что же, если все три точки могут поместиться на одну линию? Такое может быть. Но при большом количестве наблюдений маловероятна идеальная линейная зависимость между зависимой и независимыми переменными (рис. 1).

Рисунок 1 - простая линейная регрессия
Рисунок 1 - простая линейная регрессия

 Количество степеней свободы - количество значений, используемых при расчете статистической характеристики, которые могут свободно изменяться. С помощью количества степеней свободы оцениваются коэффициенты модели и стандартные ошибки. Так, если имеется n наблюдений и нужно вычислить дисперсию выборки, то имеем n-1 степеней свободы.

s^{2}=\frac{\sum_{i=1}^{n}\left(y_{i}- \overline{y}\right)^{2}}{df}=\frac{\sum_{i=1}^{n}\left(y_{i}- \overline{y}\right)^{2}}{n-1}                   (3)

Мы не знаем среднее генеральной совокупности, поэтому оцениваем его средним значением по выборке. Это стоит нам одну степень свободы.

Представим теперь что имеется 4 выборочных совокупностей (рис.3).

Рисунок 3
Рисунок 3

Каждая выборочная совокупность имеет свое среднее значение, определяемое по формуле \mu_{Y}=\beta_{0}+\beta_{1}x. И каждое выборочное среднее может быть оценено \hat{y}_{i}=\,b_{0}\,+\,b_{1}x_{i}. Для оценки мы используем 2 параметра \beta_0, \beta_1, а значит теряем 2 степени свободы (нужно знать 2 точки).  То есть количество степеней свобод df\,=\,n\,-\,2 Заметим, что при 2 наблюдениях получаем 0 степеней свободы, а значит не можем оценить коэффициенты модели и стандартные ошибки.  

Таким образом сумма квадратов ошибок имеет (SSE, SSE - standard error of estimate) вид:  

SSE=MSE=\frac{\sum_{i=1}^{n}\left(y_{i\,}-\hat{y}_{i}\right)^{2}}{n-2} (4)

Стоит упомянуть, что в знаменателе стоит n-2, а не n-1 в связи с тем, что среднее значение оценивается по формуле \hat{y}_{i}=\,b_{0}\,+\,b_{1}x_{i}. Квадратные корень формулы (4) - ошибка стандартного отклонения.

В общем случае количество степеней свободы для линейной регрессии рассчитывается по формуле:

df\,=\,n\,-\,k\,-\,1,  (5)

где n - число наблюдений, k - число независимых переменных.

2. Анализ дисперсии, F-тест

При выполнении основных предположений линейной регрессии имеет место формула:

\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}=\sum_{i=1}^{n}\left(\hat{y_{i}}-\,\bar{y}\right)^{2}\,+\,\sum_{i=1}^{n}\left(y_{i}-\,\hat{y_{i}}\right)^{2}\ ,  (6)

где \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}\,\text{-}\;\text{SSTO}\;\text{(Total}\;\text{sum}\;\text{of}\;\text{squares)},


\sum_{i=1}^{n}\left(\hat{y_{i}}-\bar{y}\right)^{2}\,\text{-}\;\text{SSR}\;\text{(Regression}\;\text{Sum}\;\text{of}\;\text{squares)},


\sum_{i=1}^{n}\left(y_{i}-\hat{y_{i}}\right)^{2}\,\text{-}\;\text{SSE}\;\text{(Error}\;\text{sum}\;\text{of}\;\text{squares)}

В случае, если имеем модель по формуле (1), то из предыдущего раздела знаем, что количество степеней свободы у SSTO равно n-1. Количество степеней свободы у SSE равно n-2. Таким образом количество степеней свободы у SSR равно 1. Только в таком случае получаем равенство \left(n-1\right)\,=\,\left(1\right)\,+\,\left(n-2\right).

Масштабируем SSE и SSR с учетом их степеней свободы:

MSE\,=\,\frac{\sum_{i=1}^{n}\left(y_{i}-\hat{y_{i}}\right)^{2}}{n-2}=\frac{SSE}{n-2}    (7)MSR\,=\,\frac{\sum_{i=1}^{n}\left(\bar{y_{i}}-\hat{y_{i}}\right)^{2}}{1}=\frac{SSR}{1}   (8)

Получены хи-квадрат распределения. F-статистика вычисляется по формуле:

F\,=\frac{MSR}{MSE}   (9)

Формула (9) используется при проверке нулевой гипотезы H_{0}:\beta_{1}=0при альтернативной гипотезе H_{1}:\beta_{1}\neq0в случае линейной регрессионной модели вида (1).

3. Выбор линейной регрессионной модели

Известно, что с увеличением количества предикторов (независимых переменных в регрессионной модели) исправленный коэффициент детерминации увеличивается. Однако с ростом количества используемых предикторов растет стоимость модели (под стоимостью подразумевается количество данных которые нужно собрать). Однако возникает вопрос: “Какие предикторы разумно использовать в регрессионной модели?”.  Критерий Фишера или по-другому F-тест позволяет ответить на данный вопрос.

Шаги:  

  1. Определим “полную” модель: y_{i}^{F}=\left(\beta_{0}+\beta_{1}x_{i1}+...+\beta_{k}x_{ik}\right)\,+\,\varepsilon_{i} (10)

  2. Определим “укороченную” модель: y_{i}^{R}=\left(\alpha_{0}+\alpha_{1}x_{i1}+...+\alpha_{t}x_{it}\right)\,+\,\varepsilon_{i} (11)

  3. Вычисляем сумму квадратов ошибок для каждой модели:

    \text{SSE(F)}\;=\,\sum_{i=1}^{n}\left(y_{i}-\widehat{y_{i}^{F}}\right)^{2} (12)

    \text{SSE(R)}\;=\,\sum_{i=1}^{n}\left(y_{i}-\widehat{y_{i}^{R}}\right)^{2}(13)

  4. Определяем количество степеней свобод df_{F},\,df_{R}

  5. Рассчитываем F-статистику:

    F\,=\,\left(\frac{SSE\left(R\right)-SSE\left(F\right)}{df_{R}-df_{F}}\right)\,\div\,\left(\frac{SSE\left(F\right)}{df_{F}}\right) (14)

    Нулевая гипотеза - “укороченная” модель мало отличается от “полной (удлиненной) модели”. Поэтому выбираем “укороченную” модель. Альтернативная гипотеза - “полная (удлиненная)” модель объясняет значимо большую долю дисперсии в данных по сравнению с “укороченной” моделью.  

Коэффициент детерминации из формулы (6): 

R^{2}=\,\frac{SSR}{SSTO}=1-\frac{SSE}{SSTO}    (15)

Из формулы (15) выразим SSE(F):

\text{SSE(F)}\;\text{=}\;\left(1-R^{2}\right)SSTO (16)

SSTO одинаково как для “укороченной”, так и для “длинной” модели. Тогда (14)  примет вид:  

F\,=\,\left(\frac{SSE\left(R\right)-SSE\left(F\right)}{df_{R}-df_{F}}\right)\,\div\,\left(\frac{\left(1-R_{F}^{2}\right)SSTO}{df_{F}}\right) (14a)

Поделим числитель и знаменатель (14a) на SSTO, после чего прибавим и вычтем единицу в числителе. 

F\,=\,\left(\frac{\left(-1\,+\,\frac{SSE\left(R\right)}{SSTO}\right)+\left(1-\frac{SSE\left(F\right)}{SSTO}\right)}{df_{R}-df_{F}}\right)\,\div\,\left(\frac{\left(1-R^{2}\right)}{df_{F}}\right)  (14б)

Используя формулу (15) в конечном счете получим F-статистику, выраженную через коэффициенты детерминации.  

F\,=\,\left(\frac{R_{F}^{2}-R_{R}^{2}}{df_{R}-df_{F}}\right)\,\div\,\left(\frac{\left(1-R_{F}^{2}\right)}{df_{\,F}}\right) (14 в)

3 Проверка значимости линейной регрессии

Данный тест очень важен в регрессионном анализе и по существу является частным случаем проверки ограничений. Рассмотрим ситуацию. У линейной регрессионной модели всего k параметров (Сейчас среди этих k параметров также учитываем  \beta_0).Рассмотрим нулевую гипотеза — об одновременном равенстве нулю всех коэффициентов при предикторах регрессионной модели (то есть всего ограничений k-1). Тогда “короткая модель” имеет вид y_{i}^{R}=\beta_{0}+\varepsilon_{i}. СледовательноR_{R}^{2}=0, df_{R}=n-1, df_{F}=n-k. Используя формулу (14.в), получим

F\,=\,\left(\frac{R_{F}^{2}}{k-1}\right)\,\div\,\left(\frac{\left(1-R_{F}^{2}\right)}{n-k}\right)\,\sim\,F\left(k-1,\,n-k\right)

Заключение

Показан смысл числа степеней свободы в статистическом анализе. Выведена формула F-теста в простом случае(9). Представлены шаги выбора лучшей модели. Выведена формула F-критерия Фишера и его запись через коэффициенты детерминации.

Можно посчитать F-статистику самому, а можно передать две обученные модели функции aov, реализующей ANOVA в RStudio. Для автоматического отбора лучшего набора предикторов удобна функция step.

Надеюсь вам было интересно, спасибо за внимание.

При выводе формул очень помогли некоторые главы из курса по статистике STAT 501

Теги: 

  • F-тест

  • Отбор моделей

  • Линейная регрессия

Хабы: 

  • Математика

  • Статистика

Комментарии (0)