Привет! Мы UX-исследователи из Контура Серёжа и Маша. Этот текст — первый в серии о методах статистического анализа. 

Зачем нам нужна статистика?

Представьте себе ситуацию: вы замерили удовлетворенность пользователей и получили среднюю оценку в 6.5 баллов из 10. Затем вы упорно и долго работали всей командой над тем, чтобы эту оценку повысить. Через полгода вы с надеждой повторяете опрос и получаете… 6 баллов. Бизнес-начальник врывается к вам в кабинет и начинает ругаться: «Как же так?! Весь год работали, а удовлетворенность упала!». А точно ли она упала? Точно ли это изменение связано с тем, что пользователи меньше довольны нашим продуктом, а не с тем, что во второй раз в нашу выборку попали менее довольные пользователи? На эти и похожие вопросы нам помогает ответить статистика. 

Почти всегда в работе мы имеем дело не со всеми пользователями, а только с их частью. Например, пользователей в продукте 100 тысяч, а опросили мы всего 100 человек. В данном случае 100 тысяч — это генеральная совокупность (ГС), а 100 — выборочная совокупность или просто выборка. Статистика позволяет нам делать выводы о генеральной совокупности на основе выборки. Эти выводы могут быть очень разными, за каждый из них отвечает свой метод. 

Несмотря на то, что такие задачи для исследователей не редкость, мы заметили, что далеко не все обладают инструментами для их решения. При этом и заполучить эти инструменты бывает непросто. Большинство обучающих материалов из открытого доступа излишне углубляются в теорию, поверхностны или не дают четкого понимания как применить знания на практике. Все эти факторы привели нас к идее создать цикл обучающих текстов. В каждом из них мы будем говорить о конкретном методе или методах статистического анализа, рассказывать для каких задач их применять и на конкретных примерах показывать, как пользоваться ими в Excel. Образ финального результата — что-то вроде настольной книги исследователя по методам статистического анализа. Сборник текстов, к которому можно обратиться с проблемой, найти инструмент для её решения и инструкцию по его применению.

Начнем с одного из самых простых методов, с построения доверительных интервалов.

Доверительный интервал для среднего

Представим, что мы задали пользователям всего один вопрос: «Насколько вы удовлетворены нашим продуктом от 1 до 10?» Получили 100 ответов и посчитали среднее, которое оказалось равно 5,93. Сразу после этого нам следует задать себе вопрос, а насколько среднее генеральной совокупности близко к тому, что мы получили на основе нашей выборки? Именно на такие вопросы нам помогает ответить доверительный интервал. 

Доверительный интервал для среднего — это диапазон значений, в котором с определенной вероятностью лежит истинное значение среднего генеральной совокупности. Пока что это может показаться недостаточно понятным, но скоро мы это исправим. 

Начнём с того, как рассчитать доверительный интервал.

Для его расчета в Excel есть специальная функция: =ДОВЕРИТ.СТЬЮДЕНТ(альфа; стандартное отклонение выборки; размер выборки). Она принимает на входе 3 аргумента. Давайте разберемся с каждым из них:

  • Альфа — уровень значимости. Обычно равняется 0.05. Детальнее о нём поговорим ниже. 

  • Стандартное отклонение выборки показывает, насколько у нас большой разброс значений внутри данных. Если все ответы сконцентрированы вокруг среднего, то оно будет маленьким, а если в выборке много экстремально больших или маленьких значений, то оно будет большим. Рассчитать его можно с помощью функции =СТАНДОТКЛОН.В(диапазон). Вместо диапазона нужно указать столбец, в котором находятся анализируемые данные.

  • Размер выборки — сколько единиц данных у нас есть (респондентов, записей метрик и т.п.), в нашем случае это 100.

В колонке A — ответы респондентов. В ячейке B2 — среднее арифметическое. В С2 — стандартное отклонение нашей выборки. В D2 — итоговый расчет доверительного интервала.
В колонке A — ответы респондентов. В ячейке B2 — среднее арифметическое. В С2 — стандартное отклонение нашей выборки. В D2 — итоговый расчет доверительного интервала.

Таким образом итоговый доверительный интервал для средней удовлетворенности пользователей будет равен 5,93±0,54. Это означает, что с 95% вероятностью истинное среднее генеральной совокупности лежит в диапазоне от 5,39 до 6,47.

Эта вероятность в 95% называется уровнем доверия. Она может принимать различные значения, однако в большинстве исследований по умолчанию её берут равной 95% (или 0,95). Уровень доверия может быть разным, например, в биомедицинских исследованиях можно встретить уровень доверия равный 99%. Уровень доверия ниже 95% встречается очень редко. Из неё же вычисляется и та самая альфа, необходимая нам для формулы в Excel. Чтобы получить альфу нужно вычесть из единицы выбранный уровень доверия. В нашем случае 1-0,95=0,05

Давайте пересчитаем наш доверительный интервал для уровней доверия 90% и 99%. В первом случае доверительный интервал — 5,93±0,45, во втором — 5,93±0,7 Что это означает? В первом случае границы интервала более узкие, однако ниже и вероятность того, что истинное среднее лежит в их пределах. Во втором случае всё наоборот — границы шире, а вероятность больше. Мы рекомендуем всегда использовать уровень доверия равный 95%. 

Доверительный интервал для доли

Последняя тема, которую мы разберем в этом тексте — доверительный интервал для доли. Предположим, что мы попросили пользователей не оценить наш продукт по десятибальной шкале, а спросили «Вам нравится наш продукт?» и дали им варианты ответа «‎Да», «‎Нет», «‎Затрудняюсь ответить». Допустим, мы получили следующее распределение ответов «‎Да» — 50%, «‎Нет» — 40%, «‎Затрудняюсь ответить» — 10% Можем ли мы сказать, что в генеральной совокупности 40% пользователей не нравится наш продукт? Нет, как и в случае со средним мы можем говорить лишь о диапазоне значений, в которых с определенной вероятностью лежит истинное значение генеральной совокупности.

Доверительный интервал для доли рассчитывается по следующей формуле: 

Легенда:

  • p — доля интересующих нас ответов. В нашем случае она равняется 0,5 для ответов «‎Да», 0,4 для ответов «‎Нет» и 0,1 для ответов «‎Затрудняюсь».

  • z — значение, зависящее от уровня доверия. Для уровня доверия 95% оно равняется 1,96.

  • n — размер выборки. 

Подставим значения в формулу и рассчитаем доверительный интервал для доли пользователей, которым не нравится наш продукт. Предположим, данные были получены на выборке в 100 человек. Получим:

В итоге мы можем сказать, что истинное количество пользователей недовольных продуктом с 95% вероятностью лежит в диапазоне 0,4 ± 0,096 или 40 ± 9,6%. 

Доверительный интервал главным образом зависит от двух параметров: распределения исследуемого признака (если внутри данных разброс маленький, то и доверительный интервал будет уже) и размера выборки (чем меньше выборка, тем шире доверительный интервал). Проиллюстрируем это на нашем последнем примере. Представим, что пользователей, которым не нравится наш продукт было не 40%, а 10%. Тогда доверительный интервал примет следующий вид — 10±5,8%. Наша оценка стала более точной! А что, если мы получили те же самые 40%, но на выборке всего в 30 пользователей? В таком случае доверительный интервал будет равен 40 ± 18%. Стал почти в 2 раза менее точным!

Заключение

Распределение признака мы не можем контролировать, а вот размер выборки можем. Поэтому всегда стоит стремиться к тому, чтобы размер выборки позволял с приемлемой точностью оценить генеральную совокупность. Однако делает ли это выборку размером в 30 респондентов бесполезной? Совершенно нет! Просто наша оценка будет менее точной. Любая выборка ценна, главное — верно её интерпретировать.

На сегодня всё! А в следующем тексте мы научимся находить статистически значимые различия между средними и дисперсиями двух разных выборок. Эти инструменты незаменимы, когда мы пытаемся узнать отличаются ли между собой по определенным  параметрам разные сегменты пользователей, или изменились ли наши пользователи по какому-то из параметров с течением времени.


Написано для телеграм-канала с вкусным названием «Сдоба» ?

Комментарии (2)


  1. Sm0ke85
    30.05.2025 06:32

    Эта ситуация обычно является следствием неправильного подхода к подготовке/сбору/анализу статистической информации, т.к. ситуация описанная в начале статьи, говорит о работе исключительно "не в ту сторону": либо в голосовании участвовало менее 1000 человек, либо вопросы с ответами были некорректны, либо интерпритация результата опроса неверная, короче много подводных камней. Для адекватного подхода нужно самому пользоваться своим продуктом на равне с продуктами конкурентов и хорошо знать продукт изнутри - вот вся магия (по крайней мере, мне так видится данная ситуация)...


  1. Razbezhkin
    30.05.2025 06:32

    А разве доверительный интервал не зависит от типа распределения?