Я сейчас прохожу базовый курс по машинному обучению. На втором занятии в рамках блока МО в видео лекции мой преподаватель показывает формулу

 \text{L} =  (y_i - \hat{y}_i)^2

И говорит, что вот это loss и он же - квадратичное отклонение, а MSE это средний показатель, поэтому MSE это среднеквадратичное отклонение.

 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

Тут я несколько выпал, так как из физики точно помню что среднеквадратичное отклонение это корень из очень похожей формулы. Давайте разбираться.

Существует формула дисперсии случайной величины, вот она

 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

Выглядит MSE действительно очень похоже. Но должны быть причины, по которым у них называния разные. Во-первых MSE это не про случайную величину. Во-вторых, обратите внимание на \bar{x} и \hat{y}, дело, разумеется, не в том что один x, а другой y. Дело в том, что черта над переменной означает её математическое ожидание, а y одел себе шляпу потому что он не настоящий, а оценочный, предсказанный. В статистике есть и другие обозначения:

\tilde{x} для медианы
x^*для оптимального значения

И, наверняка, много других, о которых я не знаю.

Итого, в случае с дисперсией случайно величины мы имеем дело с мат ожиданием этой величины (в количестве одной штуки) и множеством полученных результатов вокруг неё. В случае с MSE мы имеем дело с множеством предсказаний и множеством истинных результатов. Для каждого предсказания существует своя мишень для попадания, а не одна общая для всех. По крайней мере пока мы решаем задачу по вычислению величины таргета, а не пишем модель для попадания в мишень всеми видами дротиков, копий и стрел.

Под катом база про мат ожидание, тебе, она, скорее всего, не нужна

Hidden text

Математическое ожидание это та величина, расстояние между которой и случайными величинами в среднем будет наименьшим. Если у нас дискретная величина - и мы бросаем кубик, например, мат ожидание результата: (1+6)/2 =3.5. Такое число нам никогда не выпадет, но в среднем расстояние от результатов до этого числа минимально. Если взять и нарисовать на стороне с двойкой третью точку, то вероятность выпадения 3ки вырастет в два раза, а двойка исчезнет. Мы либо можем очень много раз бросить кубик и снова посчитать среднее арифметическое и оно будет совпадать с мат ожиданием, либо можем воспользоваться формулой, учитывающей разные вероятности:

\bar{x}  = \sump*x, где p это вероятность выпадения числа, а x - сами числа.

(1/6)*(1+4+5+6) + (2/6)*3 = 3.66... Действительно, получилось чуть большее чем 3.5.

В связи с мат ожиданием можно ещё почитать про Мартингейл и подивиться находчивости работников казино для привлечения постоянных клиентов.

Как сказано выше, общего мат ожидания для предсказаний нет и не может быть. Об истинных значениях таргета можно думать как о множестве мат ожиданий для объектов (строк исследуемой таблицы) по отдельности (уже допущение), однако это не уравняет дисперсию с MSE, дисперсия это разброс вкруг, а MSE это средний косяк модели по data. В их формулах используются разные разности. Если хочется MSE как то иначе назвать то это и не дисперсия и не среднеквадратичное отклонение, а средний квадрат разности.

Теперь Среднеквадратическое отклонение, СКО, среднее квадратичное, квадратичное отклонение, стандартное отклонение, Standard deviation.

Это всё псевдонимы корня квадратного из дисперсии. Не из MSE, а именно из дисперсии случайной величины. А если вы извлекаете корень квадратный из MSE это уже RMSE, а не СКО, хотя оба получаются извлечением корня из результатов внешне похожих функций. RMSE пригодится, если ваши абсолютные величины имеют большой порядок и MSE, как и положено квадратичной функции улетает в космос. В отличие от СКО, которое в МО только вызывает путаницу.

PS: Если я где не прав, уверен хабр меня поправит, я хочу чтобы на сайте была короткая статья, ставящая точки в вопросе квадратов разностей, их сумм, их корней.

Комментарии (3)


  1. CrazyElf
    22.06.2024 10:43

    Мне кажется, что просто когда говорят СКО, то корень в названии пропускают, но имеют в виду. Ну, такое название сложилось. И, похоже, именно в русском языке. А когда говорят MSE и RMSE, то имеют в виду в точности то, что говорится, все те слова, которые есть в названии метрики. Этих метрик ещё там куча вариаций есть, с другими буквами, и они именно что написано, то и есть. Написано логарифм - значит логарифм, написано абсолютное - значит абсолютное, написано корень - значит корень. А СКО - это просто устоявшийся русскоязычный термин, обозначающий не буквально то, что в нём написано. Так бывает, и не редко.


  1. aamonster
    22.06.2024 10:43

    Косяки перевода. Среднеквадратичное (сравните: среднее арифметическое, среднее геометрическое, среднее гармоническое) отклонение или средний квадрат отклонения.


    1. aamonster
      22.06.2024 10:43

      *среднеквадратическое.