Привет! Это Маша и Серёжа, в прошлом тексте мы научились анализировать связи между двумя качественными переменными, а сегодня расскажем, как анализировать линейную зависимость между двумя количественными.

Представим, что мы анализируем поведение пользователей в мобильном приложении. Наша гипотеза: чем дольше пользователь находится в приложении, тем больше он покупает. Иными словами, есть ли связь между временем, проведенным в приложении, и количеством совершенных покупок?  

Допустим, мы собрали метрики и получили следующий график, где по оси Х — время, проведённое в приложении, а по оси Y — количество покупок. «На глаз» мы видим, что человек делает тем больше покупок, чем больше времени проводит в приложении. Но как мы можем подтвердить, что это действительно так? Что эта связь — не иллюзия нашего восприятия и не случайное совпадение?

Коэффициент корреляции Пирсона (r)

Проверить это мы сможем с помощью коэффициента корреляции Пирсона (r) — он показывает силу и направление линейной связи между двумя переменными.

Коэффициент корреляции Пирсона (r) считается по формуле:

Где:

  • Xi и Yi — конкретные элементы в выборке;

  • x̄ и ȳ— средние значения каждой из переменных.

Формула выглядит сложной, но с помощью Excel рассчитывается очень просто! 

Для начала внесём все наши ответы в таблицу: 

А затем воспользуемся функцией =КОРРЕЛ(), внеся в качестве переменных каждую из наших колонок.

Мы получили коэффициент корреляции 0,8.

Что это значит?

Коэффициент корреляции Пирсона всегда лежит в пределах от -1 до 1:

Значение r

Интерпретация

1

Абсолютная прямая положительная связь (чем больше X, тем больше Y)

от 0,7 до 0,9

Сильная положительная связь

от 0,4 до 0,6

Умеренная связь

от 0 до 0,4

Нет линейной связи

от -0,4 до -0,7

Умеренная обратная связь (чем больше X, тем меньше Y)

от -0,7 до -0,9

Сильная обратная связь

-1

Абсолютная обратная связь

В нашем примере r = 0,8. Значит, наши данные действительно довольно хорошо укладываются в прямую линию на графике, нам не показалось. 

Важно отметить, что коэффициент Пирсона проверяет именно линейность зависимости. То есть он не работает для зависимостей, которые выглядят отлично от прямой линии. Для иллюстрации давайте дополним наши данные новыми наблюдениями. 

На графике видно, что в начале количество покупок растёт вместе со временем в приложении, однако потом начинает снижаться.

Кажется, что зависимость «на лицо». Но коэффициент корреляции для таких данных будет равен всего лишь -0,06, потому что она не линейная. Точки плохо укладываются в одну прямую.

Также важно знать, что коэффициент корреляции Пирсона отображает только то, насколько хорошо данные укладываются в прямую, но не то, какой угол у этой прямой. Рассмотрим этот тезис на примере. 

Представьте, что мы решили посмотреть зависимость количества покупок не только от времени в приложении, но и от возраста пользователя. В итоге получили следующий график: 

Здесь, в отличие от первого случая, количество покупок не взмывает резко вверх при увеличении возраста пользователя. Однако в данном случае r = 0,86. Почти такой же, как в случае зависимости покупок от времени. Это происходит потому, что коэффициент r оценивает, насколько хорошо точки укладываются в прямую линию, её наклон ему безразличен.

Значимость коэффициента корреляции

Вернёмся к изначальному кейсу с зависимостью покупок от времени. Мы узнали, что наши точки действительно укладываются в прямую линию, нам не показалось. Но как понять не случайность ли это? Может, просто так совпало, и нам случайно попались такие пользователи? Здесь поможет уже знакомая по t-тесту и Хи-квадрату проверка на статистическую значимость. Для её проверки воспользуемся онлайн калькулятором

В поле «Find P-value with?» выберем «Pearson r score». В поле «R Score» введём получившееся у нас значение (0,81), в «N» запишем количество пар наблюдений (в нашем случае 20, в «Significance level» выберем стандартные 0,05. 

Нажмём «Calculate» и получим ответ на нашу гипотезу о значимости коэффициента корреляции Пирсона. 

В нашем случае он получился значимым. 

Причинно-следственная связь

Последнее, что нужно обсудить в контексте коэффициента Пирсона — его соотношение с причинно-следственной связью. Коэффициент корреляции Пирсона не имеет к ней прямого отношения. Если он высокий, совсем не значит, что одно явление напрямую вытекает из другого. 

Здесь можно вспомнить известный пример о том, что количество пиратов значимо и сильно отрицательно связано с средним уровнем температуры на Земле. Здравым смыслом мы понимаем, что пираты и глобальное потепление — вещи абсолютно несвязанные, однако коэффициент корреляции большой. Почему? Обычно это значит, что есть какая-то третья переменная, которая сильно влияет на переменные, рассматриваемые нами.

Например, в случае пиратов и глобального потепления имеет смысл посмотреть на время или на какую-то метрику, отражающую степень развитости капиталистического мироустройства. В нашем случае подобным примером может быть связь возраста и количества покупок. Возможно, дело не в возрасте, а в месячном заработке? Чем взрослее человек, тем больше он зарабатывает и, как следствие, больше покупает. 

Подытоживая, можно сказать, что в случае коэффициента корреляции, да и вообще в работе с данными, следует сначала продумывать теорию и формулировать гипотезы, а уже потом проверять их с помощью соответствующих инструментов. 

Заключение

Сегодня мы рассмотрели коэффициент корреляции Пирсона. Он проверяет то, насколько две количественные переменные линейно связаны между собой. Важно помнить, что он просто проверяет гипотезу о том, что все наши точки довольно хорошо укладываются в прямую линию. И ничего не говорит о наклоне этой прямой. Он не оценивает зависимости, которые могут быть очень сильными, но не линейными. И не означает, что между явлениями есть причинно-следственная связь. 

Это наш последний текст про методы статистической обработки. Вне обзора мы оставили задачи по анализу нелинейных зависимостей, задачи на предсказание и задачи на кластеризацию. Они выходят за рамки базовых ситуаций, с которыми сталкиваются UX-исследователи. 

В нашей следующей и последней статье из серии мы рассмотрим предобработку данных: как превратить сырые данные из анкет в датасет, подходящий для анализа. Stay tuned! ??

Комментарии (0)