Привет, Хабр!

Статистические тесты позволяют анализировать большие объемы информации, выявлять закономерности, которые могут быть неочевидны на первый взгляд, и проверять гипотезы, делая выводы на основе данных. Они также помогают минимизировать ошибки, связанные с выборкой и измерениями, позволяя проводить корректные исследования и делать выводы, основанные на объективных фактах.

В этой статье мы рассмотрим, как правильно выбрать статистический тест для анализа разнообразных метрик.

Определение типа данных и цели анализа

Типы данных

Количественные данные описывают числовые значения, которые позволяют проводить арифметические операции. Они делятся на два типа: дискретные (счетные значения, например, количество пользователей приложения) и непрерывные (измеряемые значения, например, время, проведенное в приложении).

Качественные (или категориальные) данные представляют собой информацию, которая описывает категории или группы. Эти данные могут быть номинальными (без естественного порядка, например, типы устройств) или порядковыми (с естественным порядком, например, уровень удовлетворенности).

Цели анализа

Определение цели анализа требует четкого понимания того, что нужно узнать из данных. Цель может варьироваться от дескриптивного анализа, направленного на описание характеристик данных, до инференциального, целью которого является проверка гипотез и выводов о популяции, основанных на выборке.

Формулирование цели включает в себя:

  • Определение исследовательских вопросов: что вы хотите узнать? Какие переменные и как они могут быть связаны?

  • Выбор гипотезы: определение нулевой и альтернативной гипотезы, которые вы хотите проверить.

  • Выбор подходящего статистического метода: на основе типа данных и исследовательских вопросов вы выбираете метод, который наилучшим образом подходит для анализа.

Цель анализа и типы данных напрямую влияет на выбор статистического метода. Перейдем к видам статистического теста.

Виды стат тестов

Параметрические статистические тесты

T-тест предполагает, что данные имеют количественный характер и подчиняются нормальному распределению, что означает, что данные распределены вокруг среднего значения в форме колокола.

Существует три основных типа T-теста: одновыборочный, независимый (для двух независимых выборок) и парный T-тест.

Одновыборочный T-тест используется, когда необходимо сравнить среднее значение одной группы с известным средним значением генеральной совокупности.

Независимый (двухвыборочный) T-тест применяется для сравнения средних двух независимых групп.

Парный T-тест используется для сравнения средних значений в одной группе до и после какого-либо воздействия или в двух связанных группах.

Основные предположения, на которых базируется T-тест, включают нормальность распределения данных, равенство дисперсий для независимого T-теста и независимость наблюдений.

T-тест включает расчет t-статистики, которая затем сравнивается с критическим значением t из таблицы распределения Стьюдента. T-статистика рассчитывается как разница между средними значениями групп, деленная на стандартную ошибку разности средних.

Основной результат T-теста — это p-значение, которое показывает вероятность получить наблюдаемые данные при условии, что нулевая гипотеза верна. Если p-значение меньше выбранного уровня значимости (чаще всего 0.05), то нулевая гипотеза отвергается, что указывает на статистически значимую разницу между группами.

Анализ дисперсии (ANOVA) представляет собой статистический метод, используемый для сравнения средних значений трех и более групп. Метод позволяет определить, вызывают ли различия между группами статистически значимые различия в среднем значении зависимой переменной. ANOVA основана на количественных данных и предполагает нормальность распределения и гомогенность дисперсий между группами.

Для применения ANOVA данные должны соответствовать определенным критериям:

  • Тип данных: должен быть количественным, т.е измеряемым и выраженным численно.

  • Нормальность распределения: данные в каждой группе должны быть приблизительно нормально распределены. Это предположение может быть проверено с помощью различных тестов, к примеру как тест Шапиро-Уилка.

  • Гомогенность дисперсий: дисперсии среди групп должны быть равны. Это условие можно проверить с помощью теста Левена.

ANOVA сравнивает внутригрупповую и межгрупповую дисперсию для определения того, превышают ли различия между группами то, что можно было бы ожидать случайно. Основные шаги анализа включают:

  1. Формулировка гипотез:

    • Нулевая гипотеза (H0): средние значения всех групп равны.

    • Альтернативная гипотеза (H1): по крайней мере одна группа имеет среднее значение, отличное от других групп.

  2. Расчет F-статистики: F-статистика рассчитывается как отношение межгрупповой дисперсии к внутригрупповой дисперсии. Высокое значение F указывает на большие различия между группами по сравнению с различиями внутри групп.

  3. Определение p-значения: p-значение получается из F-распределения и используется для определения статистической значимости результатов. Если p-значение меньше заданного уровня значимости, то нулевая гипотеза отвергается.

  4. Интерпретация результатов: отвержение нулевой гипотезы указывает на наличие статистически значимых различий между средними значениями групп.

После того, как ANOVA показает на наличие статистически значимых различий между средними значениями групп, проводятся постхок-тесты для определения, между какими конкретно группами существуют различия. Например, тест Тьюки или тест Бонферрони могут быть использованы для сравнения пар групп после проведения ANOVA.

Непараметрические статистические тесты

Критерий Манна-Уитни применяется в ситуациях, когда необходимо сравнить средние ранги двух групп. Этот тест мастхев, когда данные не соответствуют нормальному распределению или когда выборка слишком мала для надежного тестирования нормальности.

Тест подходит для анализа как количественных, так и порядковых данных. Основное требование состоит в том, что данные можно упорядочить от наименьшего к наибольшему значению. Это позволяет присвоить каждому значению ранг и использовать эти ранги для сравнения двух групп.

Основная цель критерия Манна-Уитни — проверить гипотезу о том, что две независимые выборки взяты из одного и того же распределения, то есть нет значимого различия между распределениями выборок. Процедура теста включает следующие шаги:

  1. Объединение данных из обеих групп и присвоение рангов всем наблюдениям, начиная с самого маленького значения.

  2. Суммирование рангов для каждой из групп отдельно.

  3. Вычисление статистики U для каждой группы, используя суммы рангов. Статистика U отражает количество пар, в которых элемент из одной выборки предшествует элементу из другой выборки.

  4. Определение значимости различий между группами на основе статистики U, используя таблицы распределения U-критерия Манна-Уитни или аппроксимацию нормальным распределением для больших выборок.

Критерий Краскела-Уоллиса позволяет сравнивать медианы трех или более независимых выборок. Этот метод является непараметрическим аналогом ANOVA и используется, когда не выполняются предположения о нормальности распределения данных, требуемые для ANOVA.

Критерий Краскела-Уоллиса применяется для анализа экспериментальных данных, когда интересует вопрос о влиянии категориальной независимой переменной (с тремя или более уровнями) на зависимую переменную, измеряемую в количественной или порядковой шкале.

Критерий подходит для анализа как количественных, так и порядковых данных. В отличие от параметрических тестов, Краскел-Уоллис не требует предположения о нормальности распределения данных в каждой группе, но предполагает, что все группы имеют одинаковую форму распределений.

Основная цель состоит в проверке гипотезы о том, что медианы всех групп равны, то есть не существует статистически значимых различий между распределениями зависимой переменной в разных группах. Если критерий показывает наличие значимых различий, это означает, что по крайней мере две группы имеют разные медианы.

Процесс теста выглядит так:

  1. Ранжирование всех данных: сначала все наблюдения из разных групп объединяются и ранжируются от наименьшего к наибольшему значению. Ранги начинаются с 1 для наименьшего значения.

  2. Расчет суммы рангов для каждой группы: для каждой группы рассчитывается сумма рангов наблюдений.

  3. Вычисление статистики Краскела-Уоллиса (H): используя суммы рангов каждой группы, рассчитывается значение статистики H, которое отражает степень различия между группами.

  4. Определение значимости статистики H: сравнивается с критическими значениями из таблиц распределения хи-квадрат или используется для расчета p-значения, чтобы определить статистическую значимость наблюдаемых различий.

Если полученное p-значение меньше выбранного уровня значимости (например, 0.05), то нулевая гипотеза о равенстве медиан отвергается, и делается вывод о наличии значимых различий между группами.

Итак, для каких целей и типов данных применять тесты

Для удобства подготовил таблицу и включил прочие методы, которые мы не рассмотрели выше:

Тест

Цель теста

Типы данных

Примечание

T-тест

Сравнение средних значений двух групп

Количественные, нормальное распределение

Используется для сравнения двух независимых или связанных выборок

ANOVA

Сравнение средних значений более чем двух групп

Количественные, нормальное распределение, гомогенность дисперсий

Подходит для сравнения трех и более групп

Критерий Манна-Уитни

Сравнение двух независимых выборок

Количественные или порядковые, без предположения о нормальности распределения

Непараметрическая альтернатива t-тесту

Критерий Краскела-Уоллиса

Сравнение нескольких независимых выборок

Количественные или порядковые, без предположения о нормальности распределения

Непараметрическая альтернатива ANOVA

Хи-квадрат тест

Проверка независимости категориальных переменных

Качественные (номинальные)

Используется для таблиц сопряженности

Корреляционный анализ

Оценка связи между двумя переменными

Количественные

Параметрические и непараметрические методы


В завершение хочу порекомендовать бесплатный вебинар, который познакомит вас с основами статистики: нормальным распределением и центральной предельной теоремой (ЦПТ), ключевыми для анализа данных и принятия решений в продуктовой аналитике.

Подробнее о вебинаре.

Комментарии (0)