Автор статьи: Кристина Курдюмова

Кристина Курдюмова - ментор продактов, product manager Avito, стрим активация новых пользователей

Что такое АВ тест 

АВ-тест (или A/B-тест) - это метод экспериментального исследования, используемый в маркетинге и продуктовом менеджменте для сравнения двух или более вариантов одного элемента или стратегии с целью определения наиболее эффективного решения. В А/В-тесте обычно сравниваются две версии (варианта A и варианта B) одного и того же элемента, такого как веб-страница, рекламный баннер, электронное письмо и т.д., чтобы определить, какой из них приводит к лучшим результатам или большей конверсии.

Принцип А/В-теста заключается в том, что случайно выбранная аудитория делится на две группы: одна группа видит вариант A, а другая группа - вариант B. Затем собираются данные о поведении и реакции пользователей на каждый вариант. Сравнивая результаты двух групп, можно определить, какой вариант более успешный или эффективный.

А/В-тесты позволяют проводить эксперименты с минимальными рисками, так как изменения применяются только к выбранным группам пользователей. Они могут помочь в оптимизации веб-сайтов, улучшении пользовательского опыта, повышении конверсии и максимизации эффективности маркетинговых кампаний и продуктовых стратегий.

Данному типу тестирования уже много лет. Инструмент еще в начале 20 века применял математик Вильям Госсет на производстве пива Guinness. Он использовал в производстве продукции разные виды ячменя, чтобы определить наиболее лучшее сочетание, которое понравится потребителю больше всего.

Еще один пример — тестирование 41 оттенка синего в поисковой выдачи Google в начале 2000-х годов. Специалисты компании вывели гипотезу: существует оттенок синего, который воспринимается человеческим глазом лучше остальных и это может повысить кликабельность.

Технологические компании, такие как Google, Amazon, Facebook, Airbnb,  Netflix выстроили непрерывный процесс экспериментирования. Количество экспериментов в единицу времени - поражает: Airbnb 700 проверяет гипотез в неделю, Uber, Amazon проверяют 1200 гипотез в неделю. 

Как сделать дизайн АВ? - давайте разбираться. 

Как сделать дизайн АВ 

Дизайн АВ тестирования состоит из нескольких шагов:  

  1. Формулируем гипотезу.

  2. Выбираем целевую, прокси и контр-метрики.

  3. Определяем сегмент АВ теста.

  4. Запускаем эксперимент.

Формулируем гипотезу

В основе любого A/B теста лежит проблема (ситуация), которую нам надо решить (разрешить) или некое поведение пользователя, которое нам нужно изменить или, наоборот, закрепить. Выявив проблему, продакт менеджер формулирует гипотезу — предположение, которое либо подтверждается, либо опровергается в результате эксперимента. 

Для правильной оценки результатов выделяют два типа гипотез:

  • Нулевая. Изменения ни к чему не приведут, конверсия остается прежней (задача — опровергнуть гипотезу).

  • Альтернативная. Изменения приведут к повышению метрики до х%.

Если с нулевой все понятно, то альтернативную необходимо сформулировать по правилам: 

  1. Используем “Если мы сделаем…то это приведет…”.

  2. Определяем целевую метрику и направление (рост / падение / на месте).

Примеры продуктовых гипотез из моей практики: 

  • если мы сделаем таббар в мобильной веб. версии, то у нас увеличатся контакты с избранного на 10%.

  • если мы поменяем мотивацию о скачивании предложения на баннере, то увеличим конверсию в скачивание приложения на 15% .

  • если мы закроем в онбординге для новых пользователей барьер о том, что в продукте “не безопасно”, то увеличим конверсию в контакт на 5% .

Выбираем целевую, прокси и контр метрики 

Целевая метрика метрика, на которую вы намерены позитивно повлиять.

Целевая метрика должна быть: 

  • простая, интерпретируемая.

  • стабильная.

Прокси метрика это косвенная мера целевой метрики, с которой она сильно коррелирует.

Прокси метрика должна: 

  • коррелировать с целевой.

  • быть чувствительной (то есть способна реагировать на изменения в продукте). 

Контр метрики — те метрики, которые вы можете подвергнуть падению в вашем АВ тесте. 

 Чтобы подобрать контр-метрики, можно задать себе вопросы: 

  1. Что я могу упустить из вида, если буду смотреть только на целевые метрики? 

  2. С какими рисками мы можем столкнуться при оптимизации целевых метрик?

Если у вас есть трудности с определением метрик или проведением АВ тестов - приходите на менторство - пишите в telegram @product_kris.

Определяем сегмент АВ теста

Определение сегмента для А/В теста - это важный шаг, который может влиять на точность и репрезентативность результатов тестирования. Поэтому важно тщательно подходить к этому процессу.

Размер выборки для А/В тестирования можно рассчитать с помощью специальных калькуляторов, например 

Некоторые из них:

В этих калькуляторах вы можете ввести значения уровня значимости, мощности теста, ожидаемого эффекта и стандартного отклонения, чтобы получить размер выборки для А/В тестирования.

Определяем важные нюансы

  1. Определяем допустимый уровень значимости 

Допустимый уровень значимости (α - Альфа) - это вероятность того, что мы ошибочно отклоняем нулевую гипотезу, то есть гипотезу о том, что между двумя группами не существует статистически значимых различий. Обычно допустимый уровень значимости для А/В тестирования составляет 0,05 (или 5%). Это означает, что если у нас есть статистически значимый результат с уровнем значимости 0,05, то вероятность того, что мы сделали ошибку и нулевая гипотеза на самом деле верна, составляет 5%.

  1. Считаем Minimum Detectable Effect

MDE (Minimum Detectable Effect) - это минимальный обнаруживаемый эффект, т.е. минимальное изменение метрики, которое вы сможете обнаружить с заданной вероятностью и статистической значимостью в А/В тесте.

Считать  MDE необходимо ДО эксперимента - чтобы понять заранее, сможем ли мы прокрасить метрику или нам не хватит объема аудитории. 

  1. Определяем продолжительность тестирования

Для получения достоверных результатов рекомендуется проводить тестирование минимум 7 дней. За 7 дней ваша аудитория проходит и будни и выходные дни и устраняется сезонность. Сезонность в данном случае, это когда аудитория может активнее использовать ваш продукт в выходные дни или, наоборот, в будние.

Запуск эксперимента

Несколько советов перед запуском: 

  1. За несколько дней необходимо уведомить customer support об эксперименте для того, чтобы они могли помочь пользователям, которые обращаются в поддержку.

Рекомендую: 

  • уведомить заранее (минимум 1 неделя).

  • предоставить UX/UI наглядные иллюстрации типа “ДО/ПОСЛЕ”.

  • подготовить вопросы, которые могут возникнуть у пользователей и сразу предоставить ответ тех поддержке.

  1. Чтобы понять, будут ли баги при полной раскатке на весх пользователей - раскатывайте изменения плавно на трафик. Сначала запустите изменения на 5% трафика => 10% трафика => 50% => 100%.

  2. Поместите себя в группу

Продакт должен быть в курсе всего, что он делает. В некоторых компаниях продакт подключается на этапе тестирования, чтобы заранее понять как новый функционал будет на продакшене выглядеть. 

После запуска - тестируйте самостоятельно, попробуйте выполнить разные кейсы с новым функционалом, это поможет вам в интерпретации результатов. 

  1. Расслабьтесь и наблюдайте 

Не стоит в первый день анализировать результаты - данные могут быть не стат значимы. 

Иногда на начальных этапах можно увидеть подтверждение альтернативной гипотезы. И в этом случае новички допускают ошибку: прекращают тестирование раньше намеченного срока. Да, сначала изменения могут положительно повлиять на ключевую метрику, но уже в конце эксперимента может быть выявлено реальное отсутствие эффекта (если вообще не отрицательный результат). Поэтому ждите строго до конца запланированного периода.

Или наоборот,  видите негативный эффект ключевой метрики и завершаете АВ тест. В некоторых АВ тестах с сильными изменениями, такой как наш пример - необходимо больше времени, для получения реальной картины. В Авито, называют это “дождаться привыкания” - то есть +7/14 дней для того, чтобы посмотреть на поведение пользователей с новым UX.  

Всех обобщенных нюансов здесь не написать, так как в вашей компании и для каждого теста есть свои особенности, узнать которые помогает лишь опыт. 

Анализ результатов

Анализ результатов A/B-теста включает несколько этапов:

  1. Проверка статистической значимости: необходимо убедиться, что различия между контрольной и тестовой группами не являются случайными. Для этого используются статистические тесты, такие как t-тест или z-тест. Если различия статистически значимы, то можно считать, что изменения, внесенные в тестовую группу, действительно влияют на показатели.

  2. Анализ ключевых метрик: необходимо определить, какие метрики были затронуты изменениями в тестовой группе. Если изменения положительно повлияли на ключевые метрики (например, увеличили конверсию), то можно считать, что изменения успешны.

  3. Анализ поведения пользователей: необходимо изучить, как пользователи взаимодействуют с продуктом после внесенных изменений. Если пользователи начали чаще использовать новые функции или продукт стал более удобным в использовании, то можно считать, что изменения были успешны.

  4. Анализ побочных эффектов: необходимо изучить, как изменения повлияли на другие аспекты продукта или бизнеса. Например, изменения могут повлиять на время загрузки страницы или количество обращений в службу поддержки. Если изменения не вызвали негативных побочных эффектов, то можно считать, что они успешны.

Принятие решения

На основе результатов анализа необходимо принять решение о том, следует ли внедрять изменения в продукт или нет. Если изменения были успешны и не вызвали негативных побочных эффектов, то их можно внедрить. Если изменения не были успешны, то можно провести новый A/B-тест, чтобы определить, какие изменения могут быть более эффективными.

Важно помнить, что результаты A/B-теста могут быть различными в зависимости от выбора метрик, контрольной и тестовой групп, продолжительности тестирования и других факторов. Поэтому необходимо проводить A/B-тестирование с учетом всех этих факторов и применять наиболее подходящие методы анализа результатов.

Дополнительные вопросы про АВ тесты: 

Какие ошибки самые популярные в АВ тестировании:

  1. Наличие нереалистичной гипотезы.

  2. Запуск слишком большого количества сравнений одновременно.

  3. Тестирование с неправильными аудиториями (например, трафику из Google показывать 1 кнопку , трафику из Яндекса другую кнопку).

  4. Запуск слишком короткий или слишком длинный.

Делитесь этой статьей с коллегами, друзьями и партнерами. Пишите отзывы - мне будет приятно получить от вас обратную связь. 

Также хочу порекомендовать вам бесплатный вебинар "Лайфхаки трудоустройства продакт-менеджера". Вы узнаете как оформить резюме и выбирать вакансии, как подготовиться к интервью. Поймете, как правильно оформить резюме и сопроводительное письмо, узнаете, как готовиться к интервью и увидите разборы резюме.

Подписывайтесь на меня в других соц.сетях и получайте больше пользы: 

 

Комментарии (1)


  1. WFF
    12.05.2023 18:01

    А можно ли как-то оценить, какое минимальное количество достигнутых результатов при заданной Альфе может быть рассмотрено как статистически значимое?

    Например, у нас два лендинга A и B, на оба генерируются переходы по рекламе, переходы 50 на 50. Результат, это если посетитель нажал на кнопку на лендинге. Реклама пошла, через неделю есть 100 нажатий (в пропорции, скажем 60 на 40). Этот уже статистически значимый результат? Есть ли вообще способ оценить минимальный выход, необходимый для принятия решения, что A скорее всего работает лучше, чем B?