Я сейчас прохожу базовый курс по машинному обучению. На втором занятии в рамках блока МО в видео лекции мой преподаватель показывает формулу
И говорит, что вот это loss и он же - квадратичное отклонение, а MSE это средний показатель, поэтому MSE это среднеквадратичное отклонение.
Тут я несколько выпал, так как из физики точно помню что среднеквадратичное отклонение это корень из очень похожей формулы. Давайте разбираться.
Существует формула дисперсии случайной величины, вот она
Выглядит MSE действительно очень похоже. Но должны быть причины, по которым у них называния разные. Во-первых MSE это не про случайную величину. Во-вторых, обратите внимание на и , дело, разумеется, не в том что один x, а другой y. Дело в том, что черта над переменной означает её математическое ожидание, а y одел себе шляпу потому что он не настоящий, а оценочный, предсказанный. В статистике есть и другие обозначения:
для медианы
для оптимального значения
И, наверняка, много других, о которых я не знаю.
Итого, в случае с дисперсией случайно величины мы имеем дело с мат ожиданием этой величины (в количестве одной штуки) и множеством полученных результатов вокруг неё. В случае с MSE мы имеем дело с множеством предсказаний и множеством истинных результатов. Для каждого предсказания существует своя мишень для попадания, а не одна общая для всех. По крайней мере пока мы решаем задачу по вычислению величины таргета, а не пишем модель для попадания в мишень всеми видами дротиков, копий и стрел.
Под катом база про мат ожидание, тебе, она, скорее всего, не нужна
Hidden text
Математическое ожидание это та величина, расстояние между которой и случайными величинами в среднем будет наименьшим. Если у нас дискретная величина - и мы бросаем кубик, например, мат ожидание результата: (1+6)/2 =3.5. Такое число нам никогда не выпадет, но в среднем расстояние от результатов до этого числа минимально. Если взять и нарисовать на стороне с двойкой третью точку, то вероятность выпадения 3ки вырастет в два раза, а двойка исчезнет. Мы либо можем очень много раз бросить кубик и снова посчитать среднее арифметическое и оно будет совпадать с мат ожиданием, либо можем воспользоваться формулой, учитывающей разные вероятности:
p*x, где p это вероятность выпадения числа, а x - сами числа.
(1/6)*(1+4+5+6) + (2/6)*3 = 3.66... Действительно, получилось чуть большее чем 3.5.
В связи с мат ожиданием можно ещё почитать про Мартингейл и подивиться находчивости работников казино для привлечения постоянных клиентов.
Как сказано выше, общего мат ожидания для предсказаний нет и не может быть. Об истинных значениях таргета можно думать как о множестве мат ожиданий для объектов (строк исследуемой таблицы) по отдельности (уже допущение), однако это не уравняет дисперсию с MSE, дисперсия это разброс вкруг, а MSE это средний косяк модели по data. В их формулах используются разные разности. Если хочется MSE как то иначе назвать то это и не дисперсия и не среднеквадратичное отклонение, а средний квадрат разности.
Теперь Среднеквадратическое отклонение, СКО, среднее квадратичное, квадратичное отклонение, стандартное отклонение, Standard deviation.
Это всё псевдонимы корня квадратного из дисперсии. Не из MSE, а именно из дисперсии случайной величины. А если вы извлекаете корень квадратный из MSE это уже RMSE, а не СКО, хотя оба получаются извлечением корня из результатов внешне похожих функций. RMSE пригодится, если ваши абсолютные величины имеют большой порядок и MSE, как и положено квадратичной функции улетает в космос. В отличие от СКО, которое в МО только вызывает путаницу.
PS: Если я где не прав, уверен хабр меня поправит, я хочу чтобы на сайте была короткая статья, ставящая точки в вопросе квадратов разностей, их сумм, их корней.
CrazyElf
Мне кажется, что просто когда говорят СКО, то корень в названии пропускают, но имеют в виду. Ну, такое название сложилось. И, похоже, именно в русском языке. А когда говорят MSE и RMSE, то имеют в виду в точности то, что говорится, все те слова, которые есть в названии метрики. Этих метрик ещё там куча вариаций есть, с другими буквами, и они именно что написано, то и есть. Написано логарифм - значит логарифм, написано абсолютное - значит абсолютное, написано корень - значит корень. А СКО - это просто устоявшийся русскоязычный термин, обозначающий не буквально то, что в нём написано. Так бывает, и не редко.