В этой статье мы рассмотрим ключевые аспекты расчета размера выборки для AB-тестирования, основанного на нормальном приближении. Я провожу вас через логическую цепочку планирования эксперимента, объясняя важные статистические концепции и формулы, необходимые для проведения AB-теста о равенстве средних значений численного признака. Эта информация будет особенно полезна для аналитиков, готовящихся к собеседованиям или стремящихся углубить свое понимание методологии экспериментов.
Автор благодарит друга и коллегу Ивана Стецюка за огромный вклад в написание данной публикации, который заключается в критическом взгляде, математическом ревью и обсуждению фундаментальных вопросов с ней связанных.
Пример эксперимента
Давайте рассмотрим группы посетителей старого лендинга сайта и группу посетителей нового лендинга сайта. Пусть:
— средний чек покупателя на старом лендинге сайта, полученный на выборке размером со стандартным отклонением (несмещённая оценка)
— средний чек покупателя на новом лендинге сайта, полученный на выборке размером со стандартным отклонением (несмещённая оценка)
Перед началом мы предполагаем, что в эксперименте мы получим, скорее всего результат (направление возможного эффекта нам известно)
Мы хотим ответить на несколько вопросов:
Как понять, является ли разница статистически значимой или нет?
С какой вероятностью мы ошибемся, если посчитаем, что разница является статистически значимой, и с какой вероятностью мы ошибемся, если посчитаем, что не является?
Какое количество данных нужно взять, чтобы в эксперименте ошибки из второго пункта были определенными (принято размер выборки набирать такого размера, чтобы ошибки , а )?
Распределение разницы средних при многократном повторении эксперимента
Наша цель в AB-тесте — сделать статистически обоснованный вывод о том, есть ли различия между группами или нет.
Рассмотрим, что происходит при многократном проведении одного и того же эксперимента о сравнении и и поймем, как будет распределена разница выборочных средних значений в случае наличия и эффекта и при его отсутствии.
Если различий между группами нет, то при достаточно больших распределение разницы средних будет нормальным со средним и стандартным отклонением :
Если различия между группами есть, то при достаточно больших n распределение разницы средних будет нормальным со средним и стандартным отклонением :
где:
— стандартная ошибка разницы средних значений
— разница генеральных средних значений в группах, где есть эффект и где его нет
и — размеры выборок в каждой группе
и — стандартные отклонения данных в генеральных совокупностях, которые можно оценить по выборочным стандартным отклонениям: и . В случае применения такого приближения, нам следует использовать распределению Стьюдента (см. отрывок из статьи Википедии про стандартное отклонение), оно все равно будет очень похоже на нормальное при достаточно больших и , поэтому в данной статье я ограничусь именно таким приближением, чтобы получить важные формулы.
Обоснование нормальности:
Нормальное распределение для каждого из средних значений и со стандартными отклонениями и “при достаточно больших ” следует из Центральной Предельной Теоремы (см. отрывок из статьи Википедии о ЦПТ), а нормальное распределение разницы средних значений со стандартным отклонением, равным корню из суммы квадратов стандартных отклонений для и следует из свойства нормального распределения о том, что сумма нормальных распределений распределена нормально (см. отрывок из статьи Википедии о сумме нормальных распределений).
Данное распределение разницы средних допускает возможность случайно получить сколь угодно выраженные отклонения, даже если между группами нет реальной разницы!
— Вопрос: при каком значении разницы средних следует считать ее статистически значимой (= следует отклонить нулевую гипотезу об отсутствии различий между группами)?
— Ответ: В качестве критического значения для разницы средних принято использовать такое значение разницы средних, которое соответствует вероятности случайно получить такие или более сильные различия при условии, что на самом деле разница средних равна нулю (различий между группами нет). Это критическое значение вычисляется по следующей формуле:
где:
— стандартная ошибка разницы средних значений (см. выше)
— некоторое число, которое вычисляется на основе стандартного нормального распределения. Внутри промежутка находятся 95% значений этого распределения.
Эта формула следует из выражения для z-значения в 2-выборочном тесте (см. отрывок из статьи Википедии о проверке статистических гипотез).
Если в тесте детектируются разница между средними групп , мы будем отклонять нулевую гипотезу и считать, что ошиблись с вероятностью . Величина называется -уровнем значимости и является вероятностью ошибки 1-го рода (неверное отклонение нулевой гипотезы).
При данном выборе нулевой гипотезы (в случае отсутствия различий между группами) мы будем наблюдать отклонения как в большую, так и в меньшую сторону, поэтому величина равномерно располагается по концам распределения — по с каждой стороны.
Как видно из формулы, чем больше выборки (они содержатся в ), тем меньше критическая разница средних, при которой мы будем отклонять нулевую гипотезу. Чтобы обнаружить маленький эффект, необходимо взять большие выборки!!!
Если взять , а также , получим формулу для стандартной ошибки:
Подставив ее в формулу для критического значения разницы средних, можно выразить n:
Если мы хотим обнаружить различия в группах как минимум и в случае отклонения нулевой гипотезы иметь вероятность ошибиться , мы должны взять выборку как минимум указанного размера.
Здесь можно было бы закончить статью, но тест может закончиться неудачей (различия между группами не будут найдены)
Минус полученной выше формулы для размера выборки в том, что он никакак не учитывает вероятность ошибки в случае, если различия не будут найдены. В данном параграфе станет понятно, что если мы посчитаем размер выборки по формуле выше, то в случае наличия различий размером , мы не будем находить различия с вероятностью .
Если тест не показал статистически значимых различий (наблюдаемая разница средних меньше критической), то судьбой в античной пьесе на сцену выходит β-уровень значимости. Это вероятность отклонить альтернативную гипотезу, когда она верна. Однако данная вероятность будет разной в каждом частном случае альтернативной гипотезы , поэтому в эксперименте мы рассматриваем одну конкретную разницу генеральных средних, равную некоторому положительному числу . Это минимальный эффект, ради которого бизнес готов внедрять новую функцию или проводить исследование. Он называется (Minimum Detectable Effect, минимальный обнаруживаемый эффект).
Важно отметить, что в эксперименте могут быть найдены статистически значимые различия между группами с разницей средних (это видно по визуализации) в случае и в случае .
То есть, β — это вероятность отклонить в случае существования различий размером при проведении эксперимента на выборке размером .
Альтернативная гипотеза утверждает существование разницы между средними. Однако при вычислении β мы конкретизируем её от общей формулировки "различия существуют" к более точной — "различия существуют и составляют не менее ". Это позволяет рассчитать мощность теста для обнаружения конкретной разницы, так как β (ошибка второго рода) зависит от величины истинной разницы (см. формулу).
Алгоритм проведения теста:
Фиксируем вероятность ошибки 1-го рода ⇒ Вычисляем , по которому мы сможем найти критическое значение разницы средних, начиная с которого мы будем отклонять нулевую гипотезу.
Фиксируем вероятность ошибки 2-го рода и ⇒ Вычисляем размер выборки
Определим и посчитаем :
где — обратная к функции распределения стандартного нормального распределения — "квантиль-функция", которая по указанной площади от -∞ до x выдает нам число x.
Визуализация, откуда берется 1-α/2 внутри квантиль-функции:
Определим и и посчитаем размер выборки
Cделав замену получим:
Преобразовав формулу для стандартной ошибки среднего (см. выше) при и получим:
— это максимальная вероятность отклонения альтернативной гипотезы, если разница в средних составляет как минимум и мы взяли выборку как минимум размером .
> Чем больше , тем меньше при фиксированном .
> Чем больше , тем меньше при фиксированном (и тем дальше от критического значения разницы средних)
Из полученной формулы для выразим :
где — обратная к функции распределения стандартного нормального распределения — "квантиль-функция", которая по указанной площади от -∞ до x выдает нам число x. Визуализацию, откуда в квантиль-функции появляется 1-α/2 можно посмотреть выше.
— это минимальное количество данных в каждой выборке, которое обеспечит нам возможность задетектировать различия даже немного меньше чем (*) и ошибиться с вероятностью , а в случае отклонения альтернативной гипотезы обеспечит вероятность ошибочного отклонения менее , если реальная разница средних превышает
> Чем больше , тем меньше при фиксированном
> Чем больше , тем меньше n при фиксированном
(*) В случае критическое значение для разницы средних будет всегда меньше .
Двусторонний и односторонний критерий для расчета α и β
Внимательный читатель может упрекнуть нас в нелогичности использования двустороннего критерия для рассчета уровня значимости и в то же время одностороннего — при рассчете уровня значимости . Как будто бы, если мы знаем направление эффекта, мы должны везде использовать односторонний критерий, а если не знаем направление эффекта, то везде двусторонний.
Это действительно так, но есть 2 аргумента в пользу того, чтобы по использовать двусторонний критерий, даже если мы знаем направление эффекта:
Если мы предполагали, что фича отработает в плюс и применили односторонний критерий для расчета , но по итогу фича отработала в минус (статистически значимо), то по-хорошему нужно переделывать весь эксперимент, что почти всегда затратно. Поэтому логичнее уберечь нас от такой участи и использовать по всегда двусторонний критерий. (Но при этом по использовать односторонний, чтобы увеличить мощность теста)
ChatGPT говорит, что ошибки 1 рода больнее чем 2 рода, потому что катить новую фичу для бизнеса затратнее чем не катить. Именно поэтому порог по ошибке 1 рода принято брать достаточно низкий (5%), а по ошибке 2 рода гораздо выше (20%). И именно потому принято считать по двустороннему критерию даже когда известно возможное направление эффекта, а — по одностороннему критерию.
Если использовать двусторонний критерий для расчета , то формула для размера выборки станет следующей:
Табличка с рассчетом размера выборки для α = 5% и β = 20%:
β/2 |
β |
|
---|---|---|
α/2 |
n = 21 (σ/d)^2 |
n = 15.7 (σ/d)^2 |
α |
n = 17.1 (σ/d)^2 |
n = 12.4 (σ/d)^2 |
Интерпретация результатов эксперимента
Условные выводы эксперимента:
1) При наблюдении значимых различий мы принимаем альтернативную гипотезу о разнице средних (либо в случае одностороннего критерия) с вероятностью ошибки
2) При отсутствии значимых различий мы сохраняем нулевую гипотезу, допуская вероятность ошибки не более в случае наличия эффекта, равного или превышающего (по модулю равного или превышающего в случае двустороннего критерия для расчета ).
Заключение
Выбор β-уровня значимости и , а также расчет по ним размера выборки для AB-теста — это ключевые этапы в планировании эксперимента. Вся эта сложная процедура с расчетами важна для корректной интерпретации как положительных так и отрицательных результатов эксперимента. А как было бы чудесно пользоваться простой формулой для размера выборки, полученной в первой части статьи :)