Часто при сравнении статистических величин на больших интернет-данных люди "проверяют данные на нормальность" прежде чем применять t-test. Также иногда проводится предобработка данных. Например, логарифмирование ненормальных данных, чтобы "нормализовать их".

Давайте с вами попробуем выяснить, насколько это вообще является необходимой процедурой.

Сразу скажу, что я давненько хочу написать статью по этой теме. Какое-то время назад увидел похожую англоязычную статью, идеи которой я также буду использовать здесь

Начнем с азов. Для чего вообще мы используем статистический тест?

У нас есть 2 (или большее, но будем считать, что две) выборки. И мы хотим сравнить их. Чаще всего мы хотим сравнить средние. Почему? Потому что нас интересует обычно сумма на всех пользователей. Будь то сумма денег (выручка), будь то сумма кликов-просмотров. Поэтому мы сравниваем и растим ARPU (revenue per user), Time per user, ... Нас гораздо реже интересует сравнение какой-то сложной статистики. Например, квадрата среднего.

Каким образом мы можем поступить для выполнения сей задачи?

Метод

Достоинства

Недостатки

Бутстрап

Универсален, подходит для любых распределений и проверки любых гипотез

Является вычислительно очень сложным

Непараметрические критерии (например, манн-уитни)

Универсален для любых распределений

Сложная интерпретация статистических гипотез

Параметрические критерии (например, t-test)

Легко интерпретируется

Есть ограничения на применимость использования

В этой статье попробуем выяснить насколько корректно использовать для проверки гипотез именно t-test

Начнем с азов.

Есть центральная предельная теорема. Что это обозначает?

Это обозначает, что

Комментарии (0)