Всем привет! Меня зовут Даша, я продуктовый аналитик и Product Owner в команде Garage Eight.
Во время A/B-тестов у меня часто возникает вопрос о долгосрочном эффекте от изменений в продукте. Для меня ГКГ (она же Глобальная Контрольная Группа) стала незаменимым инструментом анализа таких изменений. В этой статье не будет занудной статистики и замысловатых формул, только практика.
Я расскажу о том, что такое ГКГ, как этот инструмент помогает упростить оценку эффективности и как избежать популярных ошибок при его внедрении. Надеюсь, что мой опыт принесет пользу и вашим проектам.
Как можно считать долгосрочный эффект от изменений продукта
Если говорить в целом, A/B тестирование проводят для того, чтобы из имеющихся вариантов наиболее точно выбирать тот, который позволяет достигать бОльших результатов бизнесу и клиенту.
Как и принято на рынке, при тестировании я рассчитываю длительность теста, размер групп, ожидаемый эффект, запускаю тест на одну или несколько групп. После этого я анализирую результаты, сравниваю их между собой и делаю выводы относительно успешности этого теста.
Каждому бизнесу важно понимать не только, какой из вариантов работает лучше, но и какой прирост в прибыли получит бизнес в долгосрочной перспективе. К сожалению, A/B тест не всегда помогает справиться с этой задачей.
Еще одна проблема в том, что, как правило, никто не знает, как считать суммарный эффект, который принесут изменения в продукте.
Известно всего три способа, чтобы измерить влияние на метрики в долгосрочной перспективе:
Домножение результатов А/В-теста
Корректировка приростов
Глобальная контрольная группа (ГКГ)
Ниже подробнее поговорим о первых двух способах, а затем перейдём к разбору третьего.
Домножение результатов АБ-тестов
Домножение — это самый популярный и простой способ из трех, но его результаты при этом самые неточные. Вот как это работает:
Аудиторию, которая попадает под тест, нужно разделить на две части. Первая половина — те, кто увидит новую фичу, и другая — те, кто ее не увидит.
Допустим, что тест был запущен на две недели. По окончании теста разница между этими двумя группами будет равняться 100 орехам (возьмём их за пример целевой метрики).
Эти 100 орехов домножили на 2, потому что мы делили группу на 2, и еще на 2, потому что тест шел 2 недели.
Итого после домножения мы получили бы 400 орехов. Кажется, круто, мы молодцы. Но на самом деле, когда мы смотрим на прирост этих самых орехов в динамике, мы видим, что их количество сначала растет линейно, а затем прямая начинается сглаживаться.
Так происходит, потому что все мы так или иначе подвержены когнитивным искажениям, например, эффекту новизны или наоборот эффекту первичности. Вспомните, что происходит, когда мы заходим, например, в приложение банка: мы видим завлекающую плашку, из интереса взаимодействуем с ней, но через время привыкаем к ней и больше не обращаем внимания.
Кроме когнитивных искажений повлиять на пользовательский интерес могут любые другие внешние события. Например, в продукте изменилась структура трафика, и в короткой перспективе мы не увидим изменений, но зато увидим их в долгосроке. Также на эффективность теста может повлиять сезонность, а значит, когда пик заинтересованности проходит, и показатели снижаются.
Поэтому метод домножения недостаточно корректен для того, чтобы точно посчитать долгосрочные эффекты изменений для бизнеса.
Корректировка приростов
Чтобы сделать расчеты более точными, некоторые команды используют корректировку приростов. Такой способ действительно более точный, но все еще имеет свои недостатки.
По сути корректировка приростов это тоже домножение, но с некоторыми дополнениями. Как это выглядит: получаем прирост в ходе А/В теста, как в прошлом варианте, умножаем его на N — некий коэффициент прироста. Если в первом способе мы точно умножали два раза на два и получали из 100 орехов 400, то здесь значение получится меньше, а определить наверняка значение N нельзя.
Чтобы узнать, на какой коэффициент умножать, нужно обладать историей проведения прошлых тестов.
Что такое ГКГ и как ее использовать?
Третий способ рассчитать долгосрочный эффект от изменений в продукте — это глобальная контрольная группа.
Глобальная контрольная группа — это часть пользователей, которая в течение долгого времени не получает изменения, в то время как тестовая группа получает все изменения.
Как это выглядит на практике: допустим, за квартал сделано три изменения в продукте. Улучшили функционал, пофиксили баги и взяли в работу давнишний техдолг. Все эти три изменения получает только тестовая группа, пока контрольная группа в течение квартала о них не знает.
В моей практике внедрить эту группу получилось не сразу, метод прошел несколько итераций.
В первый раз я взяла 10% от всей аудитории в качестве контрольной, оставшиеся 90% стали тестовой. Тестовую и контрольную группу в таком составе я продержала весь квартал. Чтобы сравнивать их, контрольную группу домножили на определенное количество и уравняли их. Но в итоге эти расчеты неизменно приводили к завышенным показателям.
Второй подход был более детальным. Всю аудиторию я поделила на две равные части. И точно так же, по той же методике оставила на квартал. То есть у нас 50% получили все изменения, 50% не получили никаких. Когда в конце я смотрела, как росло количество орехов за квартал, то есть в январе, феврале, марте, то очень радовалась, но только до середины февраля.
За период мы проверили 10 гипотез и запустили 10 А/B-тестов. Когда я смотрела результаты более глубоко, выяснилось, что из этих 10 тестов в определенную дату один тест забрал больше орехов, чем дали все предыдущие.
Соответственно, стало ясно, что потребности от тестирования заключаются в следующем:
Считать орехи и знать, сколько орехов наша команда принесет в будущем.
Оперативно реагировать на ситуацию и изменения общего тренда.
Не пускать в глобальную контрольную группу тесты, гипотеза которых опровергнута. То есть иметь возможно отбросить гипотезу быстрее.
Как работает синтез А/В тестов и ГКГ в Garage Eight
Итогом наших экспериментов стал новый подход — синтез А/В тестов и глобальной контрольной группы. Я предложила совместить гибкость и возможность быстрого реагирования от A/B тестов и возможность точно замерять долгосрочный эффект от глобального контроля. Именно такое сочетание помогло нам удовлетворить потребность в расчете эффективности в долгосрочной перспективе.
Финальная рабочая схема
Левая часть схемы — 80% аудитории, часть от А/В тестов. Мы оцениваем по прокси-метрикам — они хорошо коррелируют с целевыми “долгими” метриками. Эту часть делим на тестовую и контрольную группы по 40%.
Правая часть — 20% от всей аудитории — мы отдали под глобальную контрольную группу. Их делим на две равные части — те, которые не видят изменений весь квартал, и те, которые видят изменения весь квартал.
В чем нам помогает этот подход и в чем нет
Во-первых, сохраняется продуктовый подход. Мы быстро тестируем, отключаем тест или включаем на всех и сразу, и можем оперативно принять решения, что нам делать дальше. Во-вторых, мы точно знаем, сколько орехов принесем.
Главный и единственный минус — увеличивается цикл тестирования и затраты на оценку каждого теста отдельно.
Выводы
Метод глобальной контрольной группы (ГКГ) — это полезный инструмент для оценки долгосрочных результатов изменений в продукте. Он помогает получить максимально точные результаты в дополнение к A/B-тестам. К тому же, мы можем наиболее точным образом интерпретировать результаты.
Но, как и любой другой метод, он имеет ограничения и требует внимательности при использовании. Если оценка долгосрочного эффекта станет частью общей стратегии продукта, она сможет помогать в принятии решений и будет работать на развитие продукта.
Подписывайтесь на мой telegram-канал, где я пишу про продуктовую аналитику, лидерство и софт скиллы.
sneg2015
Кажется ГКГ очень похожа на АА тест? И ещё вопрос, как вы работаете с дрейфом данных и дрейфом концепции в ГКГ? Не противоречат ли они друг с другом?