image
Photo by Brooke Cagle on Unsplash


Вы читаете третью статью из серии «Дизайнер и метрики». В первой мы поразмышляли, нужны ли продуктовому дизайнеру метрики, а во второй посмотрели, какие вообще бывают метрики. Если вы ещё не читали эти статьи, то советую начать с них.


В этой статье речь пойдет о том, как ответить на вопрос, улучшили мы продукт или нет.


Дни после релиза


После раскатки нового функционала каждый дизайнер спрашивает себя: что изменилось? Удалось ли нам улучшить продукт?


Чтобы ответить на эти вопросы, нужно посмотреть, как изменились метрики после релиза функционала. Ведь зачастую результат работы дизайнера — это разница между метриками до релиза нового функционала и после него.


На первый взгляд кажется, что сравнить эти метрики очень просто: посмотрел на цифры до релиза и после, сравнил одно с другим, и если стало лучше — значит, все было не зря, а если хуже, то все надо переделывать.


Но такой подход часто ведет к ошибкам — поэтому прежде чем прыгать к выводам, нужно обратиться к математике и немного посчитать.


Как сравнить метрики «до» и «после»


Реальное значение метрики против замеренной


У каждой метрики есть её реальное значение — назовем его R (реальное), — а есть значение, которое мы получили через замеры — Z (замеренное).


И первое, с чем нам надо справиться это понять, что R ? Z.


Разберемся на примере


Допустим, перед нами стоит вопрос, сколько в России людей, которые работают в силовых структурах. Вариант загуглить и узнать — не наш выбор в этой статье.


Допустим, теоретически мы могли бы опросить каждого человека в России, силовик он или нет, и получить реальное значение, то есть R.


Но поскольку практически это невозможно, мы опрашиваем столько людей, сколько смогли найти — допустим, 300 человек (выборку формируем по науке), и потом просто экстраполируем эти данные на всю Россию.


Так мы получаем Z, то есть замеренную метрику. Думаю, теперь стало понятно, что почти всегда Z ? R.


Как из замеренной метрики получить реальную?


На этот вопрос как раз и отвечает математика. С помощью математической формулы мы можем получить промежуток значений, в котором находится R.


Вернемся к примеру с силовиками. Предположим, что после опроса 300 человек, 5 из них ответили, что являются сотрудниками силовых структур, то есть приблизительно 1,7%.


Этих данных достаточно, чтобы получить промежуток значений в котором находится R. Для этого нам необходимо:


  1. Замеренное значение метрики — в случаем с силовиками это 1.7%
  2. Количество выборки, на которой сделан замер — 300 человек
  3. Количество потенциальной выборки (не обязательно) — в нашем случае наслеление России — 146 млн человек.
  4. Выбрать точность, с которой мы хотим получить результат. Обычно используют 90, 95 и 99%

Эти данные нужно ввести в специальный калькулятор для расчета доверительного интервала и нажать «вычислить».


На выходе мы получим промежуток, в котором содержится R с вероятность 90, 95 и 99% (в зависимости от того, какой процент мы выбрали при расчёте).


Если вернуться к примеру с силовиками, то после этих расчётов можно сказать, что R находится в промежутке (или доверительном интервале) от 0% до 3,59% от всего населения России.


А значит, если умножить этот процент на население России, то получим интервал от 0 человек до 5 268 274 человек. (В этом интервале действительно содержится верный ответ — в реальности это 2,6 миллиона).


Чтобы получить более точный промежуток, нам нужно опросить больше людей.


А как же все-таки сравнить метрики «до» и «после»


Теперь нам уже достаточно знаний, чтобы ответить на этот вопрос. Осталось дело за малым: надо просто посчитать доверительный интервал для метрики «до» и для метрики «после» и посмотреть, есть ли между ними пересечение.


Если пересечения нет, то мы получили статистически значимые результаты и можно утверждать, что мы что-то изменили в продукте.


А если пересечение есть, то значит данных недостаточно, чтобы утверждать, что что-то изменилось в продукте. А полученную разницу в данных надо воспринимать как погрешность измерения.


Разберемся на примере маркетинговой кампании


Допустим, мы подготовили 2 креатива, и их посмотрели по 5 000 пользователей. Первый показал значение CTR 2% (это процент нажавших на креатив и перешедших на лендинг), а другой 3%. Можно ли сказать, что второй лучше первого?


Чтобы ответить на этот вопрос, нам надо собрать все данные для измерения доверительного интервала:


По первому банеру:


  1. Значение метрики — 2%
  2. Сколько людей увидело этот банер — 5 000
  3. Опускаем потенциальную выборку
  4. Выбираем точность 95%

Получаем, что R по первому креативу с 95% вероятностью находится между [ 1,61% – 2,39% ]


Тоже самое проделываем по второму банеру (его посмотрело тоже 5 000 человек) и получаем интервал [ 2,53% – 3,47% ]


image


Видим, что интервалы не пересекаются друг с другом, а значит, второй банер успешнее первого.


Подытожим


  1. Чтобы оценить работу дизайнера, недостаточно просто посмотреть метрики до и после, нужно сравнить их доверительные интервалы.
  2. Посчитать доверительный интервал можно с помощью специального калькулятора.
  3. Если доверительные интервалы «до» и «после» не пересекаются — значит, работа дизайнера точно дала положительный результат.

Что дальше


Это была 3 и последняя статья из серии «Дизайнер и метрики».


В следующей статье я планирую рассказать, почему у пользователя нельзя спрашивать, что ему нравится, а что нет. Подписывайтесь, чтобы не пропустить!