В технологических компаниях A/B‑тестирование давно стало основой для принятия решений, основанных на данных. Меня зовут Диля Хакимова, я работаю в команде платформы экспериментов Laba в Яндекс Go, и мы с командой помогаем руководителям и аналитикам быстро получать ценную информацию с помощью A/B‑тестирования.

Мы занимаемся разработкой методологии и помогаем специалистам решать вопросы, связанные с экспериментами и статистическим анализом. За время работы мы заметили: вокруг A/B‑тестирования до сих пор существует множество заблуждений.

Эти мифы всплывают в разговорах с руководителями, на собеседованиях и даже среди коллег‑аналитиков. Иногда они кажутся безобидными — но на деле могут привести к серьёзным ошибкам в анализе, неверным решениям и упущенным возможностям.

В этой статье мы разберём 10 распространённых мифов об A/B‑тестировании, поможем разобраться в теме глубже и сделать ваши эксперименты эффективнее.

Код симуляций, использованных в статье, можно посмотреть здесь.

Мифы об агрегации данных

Агрегация данных — один из ключевых этапов подготовки к A/B‑тестированию. Ошибки на этом этапе часто приводят к неточным выводам и искажённым результатам. В этом разделе мы разберём два распространённых мифа об агрегации данных и расскажем о лучших практиках, которые помогут сделать ваш анализ надёжным и достоверным.

Миф 1: можно использовать сырые данные о событиях при A/B-тестировании

Одно из распространённых заблуждений — считать, что для A/B‑тестирования можно напрямую использовать необработанные пособытийные данные. Например, в Яндекс Go водители в течение дня генерируют множество событий, таких как «поездка». Если анализировать данные на уровне отдельных событий без предварительной агрегации, возникнут зависимости и смещения.

Проблема

Данные о событиях часто не являются независимыми, потому что один и тот же пользователь генерирует множество событий в течение эксперимента. Если использовать их напрямую, это приводит к увеличению вероятности ошибки первого рода. Например, при верности нулевой гипотезы (в отсутствии эффекта) p‑value должно быть равномерно распределено, но в случае работы с сырыми пособытийными данными этого не происходит. В результате мы чаще, чем следует, говорим о наличии эффекта, которого на самом деле нет.

Симуляция

Если не указано иное, все симуляции здесь и ниже проводятся при условии верности нулевой гипотезы (то есть при отсутствии реального эффекта).

n — это количество пользователей в тестовой и контрольной группах. Мы будем генерировать данные для каждого пользователя i в 3 этапа.

Этап 1. Определяем количество событий k_iс помощью распределения Пуассона. Предположим, что k_i = 3.

Этап 2. Генерируем значение из экспоненциального распределения, предположим, что в этом примере это значение равно 400, дублируем его kᵢ раз, получим вектор (400, 400, 400).

Этап 3. Применяем коэффициент шума к каждому значению в векторе, выбирая значения из списка случайным образом: [0,8; 0,9; 1; 1,1; 1,2].

Коэффициенты шума в этом примере: 1,1; 0,8 и 0,9. Следовательно, конечный вектор будет (440, 320, 360).

Мы задали уровень значимости 0,05, а затем вычислили p‑value 1000 раз при нулевой гипотезе, ожидая равномерное распределение. Доля случаев, где p‑value < 0,05, должна быть примерно 0,05.

В этом типе диаграммы мы сравниваем равномерное распределение с данными смоделированных p‑value. В верхнем левом углу приведена ошибка первого рода и доверительный интервал (ДИ) для ошибки первого рода. Ошибка первого рода — это доля p‑value, которые меньше уровня значимости. А ДИ для ошибки первого рода — это ДИ для доли «антиуспехов» в серии испытаний Бернулли, где «антиуспех» — это ошибка первого рода.

В левой части находится гистограмма p‑value, а в правой — QQ‑график, где квантили эмпирического распределения p‑value сравниваются с соответствующими квантилями теоретического равномерного распределения. Распределение p‑value похоже на равномерное распределение, если все точки близки к диагонали.

Наш критерий не работает, он «видит эффект» слишком часто при верности нулевой гипотезы, а это означает, что ошибка первого уровня не контролируется на заданном нами уровне значимости.

Решение

Агрегируйте данные на уровне пользователя перед выполнением анализа. Например, рассчитайте сумму соответствующих метрик для каждого пользователя и используйте этот агрегатный набор данных для анализа. Агрегация на уровне пользователя устраняет зависимости в данных.

Миф 2: агрегация на уровне пользователя подходит для всех метрик

Хотя агрегация на уровне пользователя хорошо работает для многих метрик, она не всегда подходит для метрик‑отношений — например, метрики «Доля принятых заявок» (Acceptance Rate = принятые заявки / общее количество заявок, направленных водителю). Проблема в том, что такие метрики сложно корректно перенести на уровень отдельного пользователя. Если агрегировать числитель и знаменатель по каждому пользователю, а затем вычислить отношение, получится другая метрика.

Проблема

Гипотеза равенства средних от отношений на уровне пользователя в тесте и контроле не совпадает с гипотезой равенства глобальных отношений за период эксперимента в тесте и контроле. Более того, мы видим на симуляции (график ниже), что дельты этих двух гипотез могут быть даже не сонаправлены, то есть могут иметь разные знаки. Например, активные пользователи (heavy users) оказывают значительное влияние на глобальное отношение. Однако при агрегации на уровне пользователя все участники учитываются с одинаковым весом, что приводит к искажению результатов экспериментов.

Решение

Агрегация до бакета. Разбить пользователей на бакеты случайным образом, рассчитать метрику отношения в каждом бакете и проанализировать агрегированные результаты. Количество бакетов в каждой группе должно быть одинаковым (например, 200 бакетов).

Плюсы: этот метод вычислительно прост, так как мы переходим к анализу более коротких векторов.

Минусы: при бакетной агрегации часть информации теряется (сглаживается), поэтому мощность теста часто меньше в сравнении с другими методами.

Линеаризация. Создать квазиметрику — для каждого пользователя перейти к линейной комбинации пользовательского числителя и знаменателя по определённым правилам, описанным в статье.

Плюсы: получившаяся метрика ведёт себя сонаправленно с исходной; мы получаем аналог поюзерной метрики, которую можно использовать дальше в методах понижения дисперсии, таких как CUPED.

Минусы: эту метрику труднее интерпретировать, потому что её значения отличаются от исходной.

В Яндекс Go мы используем более продвинутый метод, при котором используется два вектора после агрегации на пользователя — числитель и знаменатель и дельта‑метод для оценки дисперсии. Здесь нулевая гипотеза заключается не в равенстве средних, а в равенстве глобальных отношений.

Плюсы: сохраняется интерпретируемость.

Минусы: нет поюзерного аналога, мы продолжаем работать с двумя векторами вместо одного.

Мифы о выборе и использовании статистических тестов

То, какой тип статистического теста вы выберете, напрямую влияет на достоверность результатов A/B‑тестирования. Неправильное понимание целей и ограничений различных тестов часто приводит к ошибкам в анализе.

В этом разделе мы разберём четыре распространённых мифа о статистических методах и объясним, как правильно их использовать, чтобы сделать эксперименты максимально надёжными и эффективными.

Миф 3: для применения t-критерия требуется нормальное распределение данных

Распространённое заблуждение состоит в том, что t‑критерий можно использовать только при нормальном распределении исходных данных. На самом деле это не совсем так.

Реальность

Чтобы t‑статистика имела распределение Стьюдента, требуется, чтобы (n-1)s^2/σ^2 имело распределение Хи‑квадрат, что верно только при нормальных входных данных (s^2 — несмещённая оценка дисперсии, σ^2 — истинная дисперсия, n — количество наблюдений в выборке). Отсюда и взял своё начало миф, что надо обязательно использовать нормальные данные в t‑тесте.

Давайте поймём, что происходит на практике: на практике нам важно, что t‑статистика (разница средних, делённая на корень из оценки дисперсии) асимптотически сходится к стандартному нормальному распределению при верности нулевой гипотезы. Для этого достаточно, чтобы распределение выборочного среднего было приблизительно нормальным и чтобы оценка дисперсии была состоятельной. Первое благодаря центральной предельной теореме достигается естественным образом при достаточно большом размере выборки, независимо от распределения исходных данных. Второе тоже верно. Само распределение Стьюдента при этом также очень быстро сходится к стандартному нормальному (начиная с 30–60 наблюдений).

При этом для маленьких n оно характеризуется более тяжёлыми хвостами по сравнению со стандартным нормальным, это же происходит и при асимптотическом приближении t‑статистики для произвольных входных данных. Поэтому эти два факта приводят нас к тому, что на практике мы можем применять t‑test и распределение Стьюдента для любых входных данных.

Моделирование

Здесь можно посмотреть модели и GIF‑файлы, которые показывают, как быстро среднее значение из n наблюдений стремится к нормальному распределению для различных случаев — равномерного, нормального, экспоненциального и биномиального распределений. Вот один из наших любимых примеров:

Основной вывод

Ключевым фактором является достаточный размер выборки (для большинства распределений 100 — это уже неплохой размер), а не искусственное приведение данных на уровне пользователя к нормальному распределению. Если размер выборки мал, стоит рассмотреть использование альтернативных методов, которые учитывают особенности исходного распределения данных.

Миф 4: чтобы решить проблему, достаточно просто удалить выбросы

Часто работу с выбросами сводят к их удалению и последующему анализу оставшихся данных. Однако такой подход может существенно исказить результаты тестирования.

Проблема

Удаление выбросов независимо в тестовой и контрольной группах приводит к смещению результатов. Часто выбросами в выборке называют такие значения в данных, которые превышают 0,99-квантиль. 0,99-квантиль — случайная величина, и если в тесте и контроле её определять независимо, то это приведёт к некорректным статистическим сравнениям.

Моделирование

Сгенерируем контрольную и тестовую группы из одного и того же экспоненциального распределения. Самостоятельно определим 0,99-квантиль в тестовой группе и удалим все выбросы выше этого квантиля. Затем найдём 0,99-квантиль в контрольной группе и удалим все выбросы выше этого квантиля.

В результате видно, что распределения p‑value сместились в сторону нуля, что увеличивает вероятность ложноположительных выводов — то есть мы чаще будем обнаруживать эффект там, где его на самом деле нет.

Решение

Единый порог для удаления выбросов. Если необходимо удалить выбросы, сначала объедините тестовую и контрольную группы, определите порог выбросов на объединённой выборке, а затем удалите выбросы по общему порогу из обеих групп. Это поможет сохранить корректность сравнения.

Ограничение вместо удаления. Иногда лучше будет ограничить выбросы, а не удалять их. При использовании этого метода экстремальные значения заменяются фиксированным пределом, одинаковым для тестовой и контрольной групп. Такое ограничение сохраняет данные и при этом уменьшает влияние экстремальных значений. При этом целостность набора данных также сохраняется и мы избегаем смещений, которые вызвало бы полное удаление выбросов.

Другие статистические методы. Вы также можете использовать методы типа CUPED, которые учитывают изменчивость без изменения набора данных.

Основной вывод

В выбросах часто содержатся ценные данные. Вместо того чтобы полностью удалять их, попробуйте внести статистические корректировки, которые снизят их влияние, сохраняя при этом важную информацию.

Миф 5: U-критерий Манна — Уитни проверяет гипотезу равенства средних и медиан 

U‑критерий Манна — Уитни часто ошибочно воспринимается как способ проверки равенства средних значений (или медиан) между двумя группами. Однако на самом деле его цель иная.

Реальность

U‑критерий Манна — Уитни основан на ранжировании данных и сравнивает сами распределения, а не средние значения (нулевая гипотеза формулируется так: если взять случайную пару (x, y) из двух выборок, то вероятность, что x > y, равна 0.5). Он чувствителен к различиям в форме распределений, из‑за чего может показывать статистически значимые различия даже тогда, когда средние значения (медианы) групп совпадают.

Моделирование

Сгенерируем тестовую и контрольную группы из нормального распределения с одинаковым средним (медианой), но с разными дисперсиями: ?(μ=0, σ=100) для тестовой группы и ?(μ=0, σ=10) для контрольной.

Согласно нашей модели, классический t‑критерий является подходящим статистическим методом для сравнения средних значений.

Использование U‑критерия Манна — Уитни приводит к большему количеству ошибок первого рода (при отсутствии реального эффекта), потому что он сравнивает распределения, а не средние значения.

U‑критерий Манна — Уитни покажет значимость в 10% случаев, тогда как t‑критерий — только в 5%. Если мы действительно хотим сравнить средние значения, то U‑критерий Манна — Уитни будет приводить к смещениям в сторону ложноположительных результатов.

Основной вывод

Используйте U‑критерий Манна — Уитни, когда вам нужно понять различия в распределении выборок. Для сравнения средних используйте t‑тест.

Миф 6: небольшие выборки можно «починить» с помощью бутстрапа

Распространённое заблуждение — считать, что бутстрап позволяет обойти ограничения, связанные с малым размером выборки.

Реальность

Метод бутстрапа предполагает, что имеющаяся выборка хорошо представляет генеральную совокупность. При небольших выборках это предположение часто нарушается, что приводит к ненадёжным результатам. Влияние случайности для маленьких выборок остаётся высоким, и ни один статистический метод, включая бутстрап, не может полностью компенсировать этот эффект.

Основной вывод

Если размер выборки мал, лучшее решение — пересмотреть проект эксперимента и собрать больше данных. Альтернативой могут быть байесовские методы, однако ограничение из‑за малого объёма данных останется в любом случае.

Мифы о метриках

Метрики, которые вы выбираете, и то, как вы обрабатываете данные, — это основа A/B‑тестирования. Ошибки на этом этапе могут привести к тому, что вы упустите значимые результаты, либо у вас может возникнуть необоснованная уверенность в полученных данных. В этом разделе мы развенчаем два устойчивых мифа о метриках, подготовке данных и их интерпретации.

Миф 7: статистически незначимые метрики не важны

Существует мнение, что если метрика не показала статистически значимых изменений, её можно игнорировать. На деле даже такие метрики важны для правильной интерпретации результатов.

Проблема

При использовании только статистически значимых метрик не получится полностью учесть риски, связанные с внедрением потенциально успешной фичи. Рассмотрим два разных эксперимента в качестве примера. В них среднее количество отработанных таксистом часов в течение эксперимента не является статистически значимым. Однако в первом случае доверительный интервал составляет [−10, 10], тогда как во втором — [−100, 100]. Второй вариант гораздо более рискованный и может привести к неприятным последствиям.

Основной вывод

Оценивайте все ключевые бизнес‑метрики, независимо от их статистической значимости. Используйте доверительные интервалы для анализа изменчивости и для более взвешенной оценки потенциальных рисков и возможностей.

Миф 8: чем больше метрик, тем лучше

Кажется логичным: чем больше метрик анализируешь, тем выше шанс найти что‑то значимое. Но на практике такой подход приводит к перегрузке данными и увеличению числа ложноположительных результатов.

Проблема

Каждая метрика или срез, например, по региону или типу пользователя, представляет собой отдельную гипотезу. Чем больше гипотез тестируется одновременно, тем выше вероятность получить хотя бы одно ложноположительное срабатывание. При этом многие метрики взаимосвязаны, а значит, если одна из них окажется случайно значимой, велика вероятность, что это затронет и другие. На графике ниже показано, как растёт вероятность совершения хотя бы одной ошибки первого рода при увеличении числа тестируемых гипотез (при уровне значимости 0,05) — это явление известно как рост вероятности групповой ошибки FWER (Family‑Wise Error Rate).

Решение

Фокусируйтесь на нескольких ключевых метриках, напрямую связанных с целями эксперимента. Если необходимо анализировать большое число метрик, используйте методы контроля групповой вероятности ошибки, чтобы уменьшить риск ложных выводов.

Основной вывод

Больше метрик ≠ более достоверные результаты. Важно сосредоточиться на тех метриках, которые действительно отвечают на главные вопросы эксперимента.

Мифы о планировании и проведении экспериментов

A/B‑тестирование — это не только анализ данных. Качественная архитектура эксперимента и аккуратное проведение имеют критическое значение. Даже самые продвинутые аналитические методы не спасут, если на этапе планирования или реализации были допущены ошибки.

В этом разделе мы разберём два распространённых мифа, которые могут поставить эксперимент под угрозу ещё до его старта.

Миф 9: статистическая мощность не так уж важна

Статистическая мощность — вероятность обнаружить реальный эффект — часто недооценивается при планировании экспериментов. Многие ограничиваются стандартным ориентиром в 80%, не оценивая фактическую мощность конкретного теста.

Проблема

Низкая мощность увеличивает риск пропустить существующий эффект (ошибка второго рода). Особенно это критично в зрелых продуктах, где ожидаемые изменения часто малы (например, на уровне 0,5–1%). Без достаточного размера выборки достижение нужной мощности становится серьёзным вызовом, а результаты теста — ненадёжными.

Моделирование

Рассмотрим экспоненциальное распределение с μ = 1000, которое эффективно описывает метрики, выраженные в денежном эквиваленте. Будем использовать уровень значимости 0,05, сначала искусственно добавим в тестовую группу эффект в 1%, а затем в 5%, и после этого подсчитаем, сколько раз мы обнаруживаем эффект в 1000 итераций для каждого фиксированного размера выборки.

Диаграмма показывает, что когда эффект мал (1%), мощность теста увеличивается очень медленно
Диаграмма показывает, что когда эффект мал (1%), мощность теста увеличивается очень медленно

Решение

Всегда оценивайте статистическую мощность до начала тестирования, особенно если планируете выявлять небольшие эффекты. Расчёты мощности помогут определить необходимый размер выборки и продолжительность эксперимента.

Основной вывод

Эксперименты с недостаточной мощностью — это трата времени и ресурсов. Планируйте мощность заранее, чтобы не запускать тесты, которые с высокой вероятностью не приведут к достоверным выводам.

Миф 10: можно остановить эксперимент, когда результаты станут выглядеть достаточно значимыми

Соблазн остановить эксперимент при первых признаках значимого результата — особенно если времени мало — довольно распространён. Но если поддаться ему, это приведёт к увеличению количества ошибок первого рода.

Проблема

Частые проверки результатов увеличивают риск случайного обнаружения значимости (p‑хакинг, подглядывание). Без заранее установленного правила остановки ваши эксперименты становятся подвержены ложноположительным результатам.

Пример моделирования

Если проверять результаты ежедневно, то даже при отсутствии реального эффекта эксперимент будет показывать значимые результаты в 63% случаев из‑за случайных колебаний.

Решение

Заранее определяйте продолжительность эксперимента и не останавливайте его преждевременно без веских причин (например, соображений безопасности или критических бизнес‑рисков). Если остановка всё же необходима, используйте методы последовательного анализа.

Основной вывод

Терпение — ключ к успешным экспериментам. Придерживайтесь заранее установленного плана, чтобы обеспечить надёжные и воспроизводимые результаты.

Заключение и дополнительная литература

A/B‑тестирование окружено множеством заблуждений, которые могут серьёзно подорвать способность принимать обоснованные, основанные на данных решения. В этой статье мы разобрали 10 распространённых мифов, с которыми сталкивались в нашей работе над экспериментальной платформой в Яндекс Go.

Эти мифы не новы: многие исследователи уже подробно их рассматривали. Однако мы считаем важным вновь поднять эту тему, потому что заблуждения по‑прежнему регулярно влияют на планирование, проведение и интерпретацию экспериментов.

Если вам хочется углубиться в тему, вот несколько ресурсов, которые будет полезно изучить

Bartlett, J. (2013). The t‑test and robustness to non‑normality. The Stats Geek.

Budylin, R., Drutsa, A., Katsev, I., & Tsoy, V. (2018). Consistent transformation of ratio metrics for efficient online controlled experiments. См.: Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (стр. 55–63). Издательство ACM.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2-е издание). Издательство Lawrence Erlbaum Associates.

Davison, A. C., & Hinkley, D. V. (1997). Bootstrap methods and their application. Издательство Cambridge University Press.

DeMets, D. L., & Lan, K. K. G. (1994). Interim analysis: The alpha spending function approach. Statistics in Medicine, 13 (13–14), 1341–1352.

Deng, A., Knoblich, U., & Lu, J. (2018). Applying the Delta method in metric analytics: A practical guide with novel ideas. arXiv preprint arXiv:1803.06 336.

Deng, A., Xu, Y., Kohavi, R., & Walker, T. (2013). Improving the sensitivity of online controlled experiments by utilizing pre‑experiment data. См.: Proceedings of the Sixth ACM International Conference on Web Search and Data Mining (стр. 123–132). Издательство ACM.

Fagerland, M. W. (2012). t‑tests, non‑parametric tests, and large studies — a paradox of statistical practice? BMC Medical Research Methodology, 12(78).

Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy online controlled experiments: A practical guide to A/B testing. Издательство Cambridge University Press.

Reinhart, A. (2015). Statistics done wrong: The woefully complete guide. Издательство No Starch Press.

Schultzberg, M., & Ankargren, S. (2023). Choosing a sequential testing framework — comparisons and discussions. Spotify Engineering Blog.

Winter, J. C. F. de. (2013). Using the Student”s t‑test with extremely small sample sizes. Practical Assessment, Research, and Evaluation, 18(10).

Наука о данных

A/B‑тестирование

Аналитика

Статистика

Тестирование гипотезы

Комментарии (1)


  1. navi_king
    26.06.2025 09:00

    Интересная статья, в закладки однозначно!