Если вы хоть раз строили линейную регрессию и задавались вопросом «а почему именно метод наименьших квадратов (далее МНК)?» – ответ вас ждал всё это время в теореме Гаусса‑Маркова.
Суть теоремы
Теорема Гаусса-Маркова утверждает, что в линейной модели регрессии, при выполнении классических предпосылок, оценки коэффициентов, полученные методом наименьших квадратов, являются лучшими линейными несмещёнными оценками, это означает, что они имеют минимальную дисперсию (наиболее точны) среди всех линейных и несмещённых оценок.
Представьте, что вы строите модель для прогнозирования продаж и у вас есть много разных способов оценить коэффициенты, тут можно взять МНК, можно придумать какую-то свою линейную комбинацию данных, можно использовать взвешенные оценки.
Теорема Гаусса‑Маркова говорит: не надо изобретать велосипед. Если выполнены определенные условия, то МНК даст вам наилучший возможный результат среди всех линейных методов и никакая другая линейная оценка не даст меньшей дисперсии при сохранении несмещенности, это мощный результат, который позволяет нам спать спокойно, используя стандартные библиотеки вроде statsmodels или sklearn.
Таким образом, теорема Гаусса‑Маркова отвечает на вопрос: почему мы вообще имеем право использовать обычный МНК? Ответ: потому что при выполнении определённых условий МНК – это BLUE, то есть:
Best – то есть самая эффективная (с минимальной дисперсией среди всех линейных несмещенных оценок);
Linear – линейная по оси y;
Unbiased – несмещенная (в среднем попадает в истинное значение);
Estimator – оценка параметров.
Теорема на языке математики
В матричной форме модель выглядит так y = Xβ + ε
При условиях Гаусса‑Маркова: E(ε|X) = 0 и Var(ε|X) = σ²I.
Оценка МНК – β̂ = (XᵀX)⁻¹Xᵀy.
Теорема утверждает: для любой линейной несмещенной оценки β̃ = Cy выполнено: Var(β̂) ≤ Var(β̃), то есть у МНК – минимальная дисперсия среди всех линейных несмещенных конкурентов.
Условия:
Но есть нюанс: это работает только при выполнении ряда условий, их как раз называют условиями Гаусса‑Маркова, их несколько, и каждое из них одинаково важное:
1) Линейность по параметрам – модель должна быть линейной относительно коэффициентов, потому что если связь нелинейная, МНК может давать смещенные оценки. Тут сама зависимая переменная может быть нелинейной функцией от факторов (можно добавлять квадраты, логарифмы, взаимодействия), но коэффициенты должны входить в уравнение линейно.
Пример правильной модели: y=β0+β1x+β2x2+ε
Здесь коэффициенты β₀, β₁, β₂ входят линейно, хотя фактор x может быть в квадрате.
Пример неправильной модели: y=β0+β1β2x+ε
Здесь коэффициенты нелинейно связаны между собой.
Если это условие нарушено, то оценки МНК могут быть смещены и теряют свойство оптимальности, более того, сама интерпретация коэффициентов становится невозможной.
2) Случайная выборка – данные должны быть случайной выборкой из генеральной совокупности
Формально должно быть так, что наблюдения независимы и одинаково распределены и ваши данные должны быть собраны так, чтобы каждый объект попадал в выборку случайно и независимо от других.
Если вы собираете данные только по успешным клиентам, игнорируя тех, кто ушел, выборка перестает быть случайной и оценки будут смещены, потому что модель не видит "плохих" примеров.
Обычно это условие принимается на этапе сбора данных, статистическими тестами его проверить сложно, но можно посмотреть на распределение признаков в выборке и сравнить с известными характеристиками генеральной совокупности (если они есть).
3) Нулевое условное матожидание ошибки – E(εX) = 0 – это означает, что модель не упустила систематической составляющей
В среднем ошибка модели не зависит от факторов и равна нулю, иными словами, модель не упустила никакой систематической составляющей.
Представьте, что вы предсказываете зарплату по возрасту, но не учли образование, тогда для людей с высшим образованием ошибка будет систематически положительной (модель недооценивает их зарплату), а для людей без образования – отрицательной. Условное матожидание ошибки перестанет быть нулем.
Это условие гарантирует несмещенность оценок, а если оно нарушено, коэффициенты будут смещены, причем непонятно, в какую сторону и насколько сильно.
4) Гомоскедастичность Var(εX) = σ² (постоянная дисперсия ошибок) – если дисперсия меняется (гетероскедастичность), оценки перестают быть эффективными.
Разброс ошибок одинаков для всех наблюдений, он не зависит от того, маленькое значение фактора или большое.
В данных о доходах людей ошибка модели будет расти с доходом – для бедных людей доход предсказывается достаточно точно, а для богатых разброс огромен – это классический случай гетероскедастичности.
Как ее проверять: можно визуально: построить график остатков от предсказанных значений и если видна воронка (разброс растет), то гетероскедастичность есть, также можно использовать тест Голдфелда-Квандта и Тест Уайта.
При гетероскедастичности оценки остаются несмещенными, но перестают быть эффективными (дисперсия не минимальна) и главная проблема в другом: стандартные ошибки считаются неправильно, а значит p-value и доверительные интервалы будут неверными .
5) Отсутствие автокорреляции – Corr(εᵢ, εⱼ) = 0 для i≠j – ошибки не должны быть связаны между собой.
Временные ряды – это сегодняшняя ошибка часто похожа на вчерашнюю, то есть если сегодня продажи оказались выше прогноза, то и завтра они, скорее всего, тоже будут выше.
Как проверять отсутствие автокорреляции: Тест Дарбина-Уотсона или построить график автокорреляции остатков.
Как и с гетероскедастичностью, оценки остаются несмещенными, но стандартные ошибки занижаются, модель кажется точнее, чем есть на самом деле.
Итог по условиям: если все эти условия выполнены, то МНК действительно лучший среди линейных несмещенных, но если нет, то могут быть варианты получше.
В реальной работе идеальные условия встречаются редко, но знание теоремы помогает понимать:
- Что может пойти не так, например, если в данных есть гетероскедастичность или автокорреляция, то мы понимаем, что стандартные ошибки могут быть занижены, а значит, p-value будут слишком красивым и ровными .
- Когда можно расслабиться, наример, если выборка случайная, ошибки гомоскедастичны и независимы, то МНК даёт лучшие оценки из возможных, можно остановиться на этом методе.
Что использовать, если условия нарушены:
Нарушение |
Что делать |
|---|---|
Гетероскедастичность |
Использовать робастные стандартные ошибки (HC0, HC1, HC2, HC3) |
Автокорреляция |
Использовать стандартные ошибки Ньюи-Уэста, переходить на модели временных рядов |
Эндогенность |
Использовать инструментальные переменные, двухшаговый МНК |
Нелинейность |
Преобразовывать переменные (полиномы, сплайны) или использовать нелинейные модели |
Итог
Теорема Гаусса‑Маркова – это фундамент, на котором строится доверие к регрессионному анализу, тут точно стоит помнить главное:
Все пять условий Гаусса‑Маркова;
Гомоскедастичность и отсутствие автокорреляции – про эффективность и правильные стандартные ошибки;
Эндогенность – это про смещение (это самое страшное, лечится сложнее всего);
Если условия выполнены – то МНК действительно лучший среди линейных несмещенных.;
Если условия нарушены – не паниковать, а использовать соответствующие коррекции (робастные ошибки, GLS, инструментальные переменные).
✔️Если нужно больше информации, то рекомендую книгу Магнус, Я. Р., Нейдеккер, Х. (2019). Математическая статистика для эконометристов – это отличный русскоязычный источник.
?Еще больше про будни и задачи аналитика данных в бигтехе в моем тг канале ?Таня и Данные?
Комментарии (4)

Arastas
07.03.2026 15:49Вроде как при автокорреляции и Var(ε|X) = R>0 применяется обобщенный метод МНК?

proxy3d
07.03.2026 15:49Немного не в тему МНК, но в тему прогнозирования. Google не давно выпустил модель TimesFM
https://github.com/google-research/timesfm
Они натренировали ее огромном массиве данных. Тут в виде разбирается эта работа
Ее идея аналогична LLM, но для time series. Обученная на огромном количестве разных временных рядов. Размерность около 200M параметров, обучение на 100 млрд точек временных рядов и разных доменах (Google Trends, Wikipedia, температура и все что смогли найти, включая синтетические данные). Поэтому может прогнозировать любой новый ряд без обучения.
Отличие в том, что обычные модели это t1 t2 t3 t4 t5 ... каждый временной шаг это токен. TimesFM разбивает временной ряд на patches [t1 t2 t3 t4] [t5 t6 t7 t8] [t9 t10 t11 t12] каждый patch это токен. Это дает меньше токенов, длинный контекст и главное лучше предсказание. Так как модель предсказывает сразу patche, то есть связанную последовательность шагов. Это снижает аккумуляцию ошибки.
Можно взять новый ряд и сразу прогнозировать, без обучения. Одна модель может работать с финансовыми рядами, продажами и другими данными. Patch decoding позволяет эффективно предсказывать длинные последовательности.
Из минусов только, что очень длинных прогнозов инференс может быть медленным и если в некоторых случаях обучить модель специально на одном датасете, она может обогнать TimesFM.
В виде это хорошо разобрано. Да, с МНК тут связь "слабая") но думаю что те кто пропустил модель и используют МНК для прогнозирования продаж, им это будет очень полезно.
Про статью, внесу небольшое уточнение:
если связь нелинейная, МНК может давать смещенные оценки
Это не совсем корректно. МНК остаётся корректным, если модель линейна по параметрам. Даже если зависимость сложная, например: y = β0 + β1*log(x) + β2*x^3. Тут можно переписать как y = X*β, где X=(1, log(x), x^3). Поэтому МНК применим.
Нелинейно, в правильном ключе она была бы при:
y = β0 + e^(β1*x)
или
y = β1*β2*x
или
y = x^β1
GidraVydra
У вас в первом пункте уравнения задвоились
TanyaVSdannye Автор
Поправила, спасибо!