Готов поспорить, вы слышали о стандартном отклонении или кто то из колег упоминал его в разговоре (чтобы показать какой он умный и поставить вас на место). Звучит похоже на умственное отклонение, но интуиция подсказывает вам что возможно разговор тут совсем про другое? Ваша интуиция совершенно права. Настало время поставить коллег на место и разобраться что же это такое.
Вот объяснение, которое даже ваша собака сможет понять.
Стандартное отклонение (standard deviation) тесно связано с дисперсией (variance).
Дисперсия, как ни странно, является мерой разброса (дисперсии) значений в определённом наборе данных. Она показывает, насколько различаются (или схожи) элементы в группе. Например, в среднем рост мужчины составляет 174 сантиметра. Но если вы остановите случайного парня на улице, его рост, скорее всего, будет отличаться. Так, например, в вашем районе, если вы остановите определённое количество парней (скажем, десять) и они окажутся не гопниками и согласятся сказать свой рост, вы сможете рассчитать дисперсию их роста. Она рассчитывается следующим образом (формулу объясню чуть позже):
D(X) =sum(xi-average)²/ n,
где:
n — количество элементов (десять),
xi — рост парня под номером i.
Допустим, рост десяти парней, которых мы встретили, такой:
1: 172
2: 163
3: 154 (ну.. не повезло, бывает)
4: 181
5: 190 (счастливчик)
6: 170
7: 174
8: 168
9: 178
10: 160
Теперь рассчитаем дисперсию. Сначала найдем среднее значение всех данных:
среднее = (172+163+154+181+190+170+174+168+171+160)/10 = 171 сантиметр
Как видите, парни в нашем районе немного ниже среднего по стране... Наверное, в подростковом возрасте слишком много курили. Теперь посмотрим, насколько сильно отличаются мужчины в нашем районе — то есть, насколько схож их рост. Для этого нам нужно рассчитать дисперсию.
(172–171)²= 1²=1
(163–171)²= -8²=64
(154–171)²= -17²=289
(181–171)²= 10²=100
(190–171)²= 19²=361
(170–171)²= -1²=1
(174–171)²= 3²=9
(168–171)²=-3²=9
(178–171)²=7²=49
(160–171)²=-11²=121
Разница между средним значением и ростом конкретного парня — это и есть дисперсия, но почему мы возводим её в квадрат? Мы делаем это, чтобы избежать отрицательных чисел (если рост текущего парня ниже среднего). В понимании разброса отрицательные числа не имеют смысла, поэтому мы возводим в квадрат, чтобы показатель всегда был положительным.
Теперь давайте посчитаем сумму:
1 + 64 + 289 + 100 + 361 + 1 + 9 + 9 + 49 + 121 = 1004
И дисперсия = 1004/10 = 100,4. т.е. мы делим сумму на количество элементов, получая среднее заначение.
Но что это значит? И в каких единицах это измеряется? Ну, так как мы возводили разницу в квадрат, это, очевидно, не в исходных единицах (сантиметрах). Поэтому дисперсию сложно интерпретировать именно из-за этого... Вот тут и приходит на помощь стандартное отклонение — мы просто берём квадратный корень из дисперсии (чтобы, так сказать, обратить возведение в квадрат):
Standard Deviation = square_root(100.4) = 10 сантиметров
Теперь это сантиметры! Гораздо легче понять, и это означает, что в среднем рост мужчин в нашем районе отличается (меньше или больше) от среднего на 10 сантиметров. В среднем — это важно, т.к. для конкретного парня это значение может отличаться на другую величину.
Таким образом, стандартное отклонение — это мера степени изменчивости значений переменной относительно её среднего. Теперь вы понимаете, что это на самом деле значит.
Важное свойство стандартного отклонения заключается в том, что в нормальном распределении около 95% значений будут находиться в пределах двух стандартных отклонений от среднего. В нашем примере это означает, что 95% мужчин в нашем районе будут иметь рост в диапазоне от 171 ± 20 сантиметров (2*10). И 99,7% (почти все) будут в пределах трёх стандартных отклонений. Это значит, что парни двухметрового роста встречаются очень редко (и их называют outliers, потому что они лежат за пределами трёх стандартных отклонений).
Нормальное распределение (также называемое гауссовским) — самое важное для практического применения. Оно имеет форму колокола (см. ниже), и большинство естественных и социальных явлений в реальной жизни подчиняются нормальному распределению. Почему? Без понятия, это просто факт. Думаю, вселенной нравится симметрия или что-то в этом роде.
Всем добра!
Комментарии (8)
nikolz
08.11.2024 11:46Вообще-то уже давно признано, что нормальное распределение редко встречается в реальности.
---------------------------
Есть такая байка:
Математики думали, что физики экспериментально доказали существование нормального распределения данных в реальности.
Физики полагали, что математики доказали строго математически реальность нормального распределения.
Вот так и появилось нормальное распределение, которое в реальности встречается редко.
----------------
Когда в прошлом веке ученые-экспериментаторы это поняли, то появилась теория(методы) робастного оценивания данных, как фактическое признание отсутствия нормальности распределения реальных данных.
-----------------------------
Только финансисты и чиновники все еще упорно считают среднюю зарплату, как арифметическое среднее, а диапазон разброса данных, как средний квадрат отклонения от арифметического среднего, и чайникам рассказывают байки про нормальное распределение.
StjarnornasFred
08.11.2024 11:46Только финансисты и чиновники все еще упорно считают среднюю зарплату, как арифметическое среднее
Нет. Чаще используется показатель медианной зарплаты, а не средней. Да и при подсчёте средней обычно используется среднее усечённое, а не среднее арифметическое.
sergeiosipoff
08.11.2024 11:46Автор, у вас ошибка в тексте. Вы пишите, что "это означает, что в среднем рост мужчин в нашем районе отличается (меньше или больше) от среднего на 10 сантиметров". В действительности среднее отклонение от среднего в вашем примере 1 см: (корень(1004))/10. И чуть упрощая, это называется стандартная ошибка, а не стандартное отклонение. Поправьте, пожалуйста
sergeiosipoff
08.11.2024 11:46Извините, ошибся в формулировках - среднее отклонение от среднего - это либо сумма модулей деленное на количество испытаний (в вашем примере это 8) или, строго говоря, сумма отклонений деленное на количество испытаний т.е. строго ноль. Ни то, ни другое не является стандартным отклонением, как у вас написано
sergeiosipoff
08.11.2024 11:46Автор, это дело вкуса, но, имхо, вы вообще зря в статью для начинающих потащили нормальное распределение. Во первых, тезис о том, что "большинство ... явлений подчиняются нормальному распределению" очень полемичен и не стоит его вносить в мозг новичкам, как непреложную истину. Во вторых, ценность нормального распределения не в том, что вы указали, а в том, что благодаря центральной предельной теореме, выборка средних значений выборок стремится к нормальному распределению - боюсь, что объяснить это новичкам будет непросто. В третьих, связь между величиной стандартного отклонения и количества покрываемых испытаний (которую вы хотите показать) существует и вне зависимости от формы распределения (неравенство Чебышева)
OldFisher
Потому что большинство этих явлений - сложные процессы, состоящие из большого числа простых: https://ru.wikipedia.org/wiki/Центральная_предельная_теорема.
sergeiosipoff
Извините, но центральная предельная теорема не про это. Её суть в том, что при большом количестве выборок, распределение значений их средних будет стремится к нормальному.