Привет! На связи Серёжа и Маша, а это — второй текст в нашей серии обучений по статистике. В прошлый раз мы научились оценивать среднее и строить доверительные интервалы. Сегодня же мы научимся сравнивать несколько выборок между собой.

Вернемся к примеру из первой статьи. Мы замерили удовлетворенность пользователей и получили среднее равное 6.5. Затем провели аналогичный замер через полгода и получили среднее 6.0. Удовлетворенность упала? Или это изменение обосновано тем, что в выборку попали менее довольные пользователи? В прошлый раз мы лишь поставили эту проблему, а в этот раз мы её решим. И решим мы её с помощью t-теста Стьюдента. 

Перед тем как перейти к делу, нам нужно немного прокачать наш Excel, чтобы мы могли использовать сложные функции для анализа данных. Сделать это можно буквально в пару кликов с помощью этой инструкции.

Cравнение средних двух выборок

Итак, у нас есть две выборки. Выборка 1 — оценки удовлетворенности, полученные полгода назад. Выборка 2 — оценки удовлетворенности, полученные в текущем исследовании. В каждой выборке по 50 ответов. Запишем их в ячейках B3-B52 и С3-С52 соответственно.

Чтобы сравнить их, нам нужно перейти в добавленный нами раздел «‎Анализ данных» на вкладке «‎Данные».

В списке предложенных инструментов мы найдём аж 3 разных вида t-теста. 

Какой же из них нам выбрать? «‎Парный двухвыборочный t-тест для средних» ‎нужно выбирать в том случае, если обе выборки получены на одних и тех же пользователях. Буквально — Иван Иванович прошёл оба наших опроса, а в нашей таблице его текущие и прошлогодние ответы находятся в одной строчке. 

Наш текущий кейс другой природы — мы опрашивали одну и ту же группу, но не одних и тех же конкретных людей. Поэтому выбор лежит между Двухвыборочным t-тестом c одинаковыми дисперсиями и с различными. 

Чтобы выбрать между ними, нужно сравнить стандартные отклонения наших выборок. Рассчитать их можно с помощью функции =СТАНДОТКЛОН.В(диапазон). Вместо диапазона нужно указать столбец, в котором находятся анализируемые данные. В качестве простого правила следует выбирать вариант с одинаковыми дисперсиями, если стандартные отклонения отличаются менее чем в 2 раза, если более — с различными. В нашем случае стандартные отклонения равны 2,8 и 2,2. Различие менее чем в 2 раза, поэтому выбираем тест с одинаковыми дисперсиями.

В открывшемся окне в «‎Интервал переменной 1»‎ вставим данные из первого опроса, в «‎Интервал переменной 2»‎ — из второго опроса. Альфу, как обычно, берём равную 0.05 (подробнее про альфу см. в предыдущей статье). 

С помощью «Параметры вывода»‎ настраиваем, куда будут вставлены результаты анализа, можно выбрать ячейку на текущем листе или показать их на новом листе. 

Нажмём «Ок» и получим результаты нашего анализа:

В этой таблице нас интересуют «t-статистика» (строчка 10) и «t критическое двухстороннее» (строчка 14). Если t-статистика меньше t-критического, то наши результаты статистически не значимы, если больше — статистически значимы. Но что означает это самое «статистически значимы»? Как известно, выборка носит случайный характер, поэтому и различия, которые мы получаем, могут быть обусловлены случайностью. Например, в одном опросе мы чисто случайно зацепили больше удовлетворенных пользователей, а в другом меньше. Статистически значимое различие в средних — это такое различие, которое получить случайно можно не более чем в α % случаев. У нас α = 0.05. Значит, с вероятностью не более 5% изменение средней удовлетворенности пользователей обусловлено действительными изменениями в генеральной совокупности, а не случайностью.

В нашем случае различия получились незначимыми, т.е. могут быть вызваны случайностью с более чем 5% вероятностью. Этот пример наглядно показывает, почему всегда важно проверять результаты с помощью методов статистики. Без применения t-теста команда бы решила, что удовлетворенность пользователей за последние полгода снизилась с 6,44 до 6,08, однако эта разница статистически не достоверна. 

Отметим, что то, что мы не обнаружили статистически значимых различий не значит, что их нет. Это значит только то, что на нашей выборке мы не смогли их доказать. Чем больше размер выборки, тем более тонкие различия в средних мы сможем назвать статистически значимыми. 

Давайте для эксперимента в восемь раз увеличим размер обеих наших выборок с 50 до 400 элементов. Результаты t-теста примут следующий вид:

t-статистика стала больше t-критического, а значит, мы можем назвать различия значимыми. 

Доверительный интервал для отличий средних

Итак, на увеличенной выборке мы показали, что удовлетворенность наших пользователей за последние полгода упала статистически значимо! И тут перед нами встаёт вопрос: а на сколько она упала? Здесь нам поможет уже знакомый по первой статье доверительный интервал. Но уже не для среднего, а для разницы между средними. Рассчитать его можно по следующей формуле:

Легенда:

x1, x2  — средние наших выборок;

ta — специальный табличный показатель (о нём расскажем ниже);

S12, S22 — дисперсии наших выборок (к тому, что такое дисперсия, мы вернёмся в конце статьи);

n1, n2 — размеры наших выборок.

Давайте рассчитаем доверительный интервал для разности средних. 

Для начала найдём средние каждой из выборок с помощью функции =СРЗНАЧ (диапазон). Запишем результат в ячейках B2 и C2 соответственно. 

Затем рассчитаем дисперсию каждой из выборок. Запишем результат в ячейках D2 и E2. Сделать это можно с помощью функции =ДИСП.В(диапазон). 

n1, n2 нам уже известны, размер каждой из выборок равен 400. Введём их в ячейки D4, E4.

Осталось найти загадочное ta. Для этого перейдём на сайт www.criticalvaluecalculator.com

Выберем раздел «t value». В поле «significance level» введем уже знакомую нам альфу, в нашем случае 0,05, в «Degrees of Freedom» — сумму размеров наших выборок минус 2, т.е. 400+400-2=798. Нажмём «Calculate» и обратим внимание на поле «t value for Two Tailed Probability», его значение и есть наше ta

Введём его в ячейку D6. Теперь у нас есть всё, что нужно! Осталось только подставить значения в формулу. 

Сначала рассчитаем разницу средних, просто отняв из второго среднего первое.

А теперь подставим в отдельную ячейку остальные значения согласно формуле. 

Мы получили 0,34. Что это значит? Это значит, что теперь мы можем сделать следующий вывод: удовлетворенность наших пользователей за последние полгода упала на 0,450,34 балла, или от 0,11 до 0,79 баллов.

F-тест для дисперсий

Со сравнением средних разобрались. Однако среднее не единственный важный показатель. Снова представим, что мы провели опрос удовлетворенности, и теперь нас интересует отличается ли удовлетворенность бухгалтеров от удовлетворенности кадровиков. Представим, что мы получили следующие ответы:

В обоих случаях среднее равно 5,4, но мы видим, что разброс ответов кардинально отличается. Как мы можем статистически подтвердить то, что видим глазами? В этом нам поможет F-тест для дисперсий.

Как мы писали в первой статье, стандартное отклонение — это мера того, насколько данные в нашей выборке разбросаны. Стандартное отклонение выборки, где большинство значений равны 5 и 6, будет сильно меньше чем в выборке, где большинство ответов — 1 и 10. Дисперсия —  это стандартное отклонение, возведённое в квадрат, т.е. ещё одна мера вариации наших данных. 

Для начала запишем ответы из каждого опроса в ячейки A2:A101 и B2:B101.

Чтобы сравнить дисперсии двух выборок, нужно зайти в уже знакомый нам раздел «Анализ данных» на вкладке «Данные» и выбрать «Двухвыборочный F-тест для дисперсии», выберем наш диапазон данных и нажмём «Ок».

Получим следующие результаты: 

Как и в случае с t-тестом, нам интересно сравнить «F» (строчка 8) и «F-критическое» (строчка 10). Если F больше, то разница в дисперсиях статистически значимая. Именно так и получилось в нашем примере. Получив такие данные, мы можем спросить себя: «Почему среди кадровиков преобладают либо очень низкие, либо очень высокие оценки?». Возможно, в отличие от кадровиков, бухгалтеры делятся на какие-то сегменты внутри себя. В этом случае анализ статистическим критерием помогает поставить новые бизнес-гипотезы. 

Заключение

В этой статье мы научились сравнивать средние с помощью t-критерия и дисперсии с помощью F-критерия. Всегда важно сравнивать средние с помощью статистического теста, поскольку различия могут быть обоснованы случайным характером выборки, а не реальными изменениями в генеральной совокупности. При сравнении стоит всегда держать в голове два момента: 

  1. Чем больше размер выборки, тем более слабые различия мы сможем статистически доказать с помощью критерия;

  2. Если мы не нашли статистически значимой разницы, это не значит, что её нет, это значит, что она недостаточно существенна, чтобы мы могли доказать её на выборке нашего размера. И это абсолютно нормально, стоит просто сказать, что разницы найти не удалось и ограничиться описательной статистикой. 

А в следующей статье мы научимся сравнивать между собой частоты и качественные признаки. Это поможет, например, сравнить конверсию старой версии сайта и новой. Или проверить одинаково ли популярна фича у разных сегментов пользователей. В этом нам поможет критерий Хи-квадрат. 

Комментарии (0)