Часто при сравнении статистических величин на больших интернет-данных люди "проверяют данные на нормальность" прежде чем применять t-test. Также иногда проводится предобработка данных. Например, логарифмирование ненормальных данных, чтобы "нормализовать их".
Давайте с вами попробуем выяснить, насколько это вообще является необходимой процедурой.
Сразу скажу, что я давненько хочу написать статью по этой теме. Какое-то время назад увидел похожую англоязычную статью, идеи которой я также буду использовать здесь
Начнем с азов. Для чего вообще мы используем статистический тест?
У нас есть 2 (или большее, но будем считать, что две) выборки. И мы хотим сравнить их. Чаще всего мы хотим сравнить средние. Почему? Потому что нас интересует обычно сумма на всех пользователей. Будь то сумма денег (выручка), будь то сумма кликов-просмотров. Поэтому мы сравниваем и растим ARPU (revenue per user), Time per user, ... Нас гораздо реже интересует сравнение какой-то сложной статистики. Например, квадрата среднего.
Каким образом мы можем поступить для выполнения сей задачи?
Метод |
Достоинства |
Недостатки |
Универсален, подходит для любых распределений и проверки любых гипотез |
Является вычислительно очень сложным |
|
Непараметрические критерии (например, манн-уитни) |
Универсален для любых распределений |
Сложная интерпретация статистических гипотез |
Параметрические критерии (например, t-test) |
Легко интерпретируется |
Есть ограничения на применимость использования |
В этой статье попробуем выяснить насколько корректно использовать для проверки гипотез именно t-test
Начнем с азов.
Есть центральная предельная теорема. Что это обозначает?
Это обозначает, что