Иногда до начала эксперимента не удаётся оценить то, какого размера должна быть выборка, способная обеспечить его нормальное проведение. Для решения этой проблемы можно провести последовательный тест или A/A‑тест. Но последовательные тесты обычно отличаются меньшей чувствительностью и оказывают отклоняющее влияние на статистическую оценку эффекта воздействия. A/A‑тесты увеличивают длительность экспериментов, не гарантируя при этом того, что найденный в итоге размер выборки окажется корректным. В этом материале мы представим основные моменты из нашей недавней публикации (Precision‑based designs for sequential randomized experiments, Mattias Nordin, Mårten Schultzberg, 2024), в которой мы представляем альтернативный метод, названный нами «fixed‑power design» (схема эксперимента с фиксированной статистической мощностью). При применении схем с фиксированной статистической мощностью эксперимент начинают, не имея оценки размера выборки. Необходимый размер выборки находят, опираясь на имеющиеся данные о текущих результатах эксперимента. Эксперимент останавливают в тот момент, когда текущий размер выборки оказывается больше необходимого размера выборки. Мы покажем, что эксперименты с фиксированной статистической мощностью можно анализировать, используя стандартные методы без какой‑либо коррекции. Точечные оценки оказываются непротиворечивыми, а доверительные интервалы эффекта воздействия обладают асимптотическим номинальным покрытием. Не все формы «подглядывания» приводят к увеличению частоты появления ложноположительных выводов на основе выборки фиксированного размера.

Введение

Компании применяют онлайн‑эксперименты по многим причинам. Например:

  • Для выявления наилучшей версии некоего продукта.

  • Для оценки воздействия изменений, внесённых в продукт.

  • Для обнаружения регрессионных ошибок до того, как проблема коснётся всех пользователей.

Онлайн‑эксперименты позволяют решать все эти задачи и при этом держать под контролем риск принятия неправильных решений.

У нас, в Spotify, цели подобных экспериментов заключаются в следующем: узнать о том, что у нас работает, о том — насколько хорошо это работает, и о том, как можно пораньше избавиться от того, что работать не хочет. Но то, в какой степени мы можем достичь этих целей, зависит от того, как спроектированы эксперименты, и от того, как мы анализируем их результаты. Например, некоторые схемы предусматривают раннюю остановку эксперимента. Платить за это приходится статистической мощностью. Это, в целом, снижает вероятность обнаружения некоего эффекта в том случае, если этот эффект существует. При применении других схем, наоборот, особое внимание уделяют статистической мощности. Это приводит к росту времени проведения экспериментов, так как их ранняя остановка не предусмотрена. В следующем разделе мы поговорим о самых распространённых схемах проведения A/B‑тестирования, обсудим ограничения популярных подходов и расскажем о новой схеме, которая позволяет смягчить некоторые из этих ограничений.

Схемы последовательных экспериментов: больше, чем просто последовательное тестирование

Можно выделить два самых важных аспекта, касающихся планирования эксперимента. Первый — это критерий остановки. Второй — определение момента, при наступлении которого выполняют анализ результатов. Схемы проведения экспериментов можно грубо разделить на две категории: это схемы с фиксированным размером выборки и последовательные схемы.

Схемы экспериментов с фиксированным размером выборки

В схемах экспериментов с фиксированным размером выборки исследователь задействует анализ статистической мощности, известный ещё как вычисление размера выборки, для того, чтобы задать заранее определённый размер выборки. Анализ статистической мощности позволяет получить оценку необходимого размера выборки. Эксперимент должен соответствовать этой оценке. Если это так и будет — сравнение будет отличаться достаточно высокой точностью для того, чтобы ограничить риск пропуска эффекта воздействия определённого масштаба, интересующего исследователя. В ходе эксперимента осуществляется сбор данных, производимый до достижения выборкой заданного объёма. После этого выполняется статистический анализ данных.

Схемы последовательных экспериментов

При применении схем последовательных экспериментов размер выборки заранее не задаётся. (При проведении последовательных тестов некоторых типов необходимо заранее принять решение о максимальном размере выборки, но не о том её размере, по достижении которого нужно остановить сбор данных.) В принципе — последовательные эксперименты — это когда изучаемые пользователи подключаются к онлайн‑эксперименту последовательно, а эксперимент останавливают по некоему правилу, основываясь на доступных данных. При планировании таких экспериментов используются правила остановки, которые лишь косвенно определяют размеры выборок. Соответствующие оценки выполняются в ходе проведения эксперимента. Самая распространённая схема такого эксперимента, часто называемая просто «последовательным экспериментом», предусматривает остановку эксперимента после того, как тест обнаружит значимый результат.

В контексте онлайн‑экспериментов многие советуют пользоваться последовательными тестами для выявления регрессионных ошибок. При этом не рекомендуется применять такие тесты при принятии решений о выпуске новой версии продукта из‑за проблем, связанных со статистической мощностью таких экспериментов и отклоняющих влияний, которые могут оказывать на них различные факторы. Подробнее об этом можно почитать в этой публикации и в нашей предыдущей статье, где мы сравниваем методы последовательного тестирования.

Использование гибридной схемы проведения экспериментов

На самом деле, многие компании на практике используют именно гибридные схемы проведения экспериментов. То есть — эффект воздействия предварительно рассчитывают и оценивают, используя статистические тесты, определённые для схем экспериментов с фиксированной выборкой. Но схема эксперимента является последовательной, так как эксперимент проводится до того момента, пока текущий размер выборки не превысит предварительно рассчитанный необходимый размер выборки. При расчёте же необходимого размера выборки, в свою очередь, используется оценка дисперсии, полученная на основе данных, собранных к некоему моменту проведения эксперимента. В данной публикации мы называем это «fixed-power design» (схема эксперимента с фиксированной статистической мощностью). А именно, речь идёт о том, что в онлайн-эксперименте получают данные от новых пользователей до тех пор, пока, в соответствии с доступными данными, не будет достигнут заданный критерий статистической мощности.

https://storage.googleapis.com/production-eng/1/2024/05/image1.png
Текущий размер выборки. Графики требуемых размеров выборок, полученные расчётным путём для 50 экспериментов с фиксированным эффектом воздействия при последовательном сборе образцов. При применении схемы эксперимента с фиксированной статистической мощностью остановка осуществляется сразу после того, как текущий размер выборки, представленный синей линией, окажется выше оценочного размера выборки. Две синие линии иллюстрируют ситуацию остановки, соответственно, на наименьшем и наибольшем размерах выборки. Итоговые размеры выборок показаны штриховыми линиями. Точечной линией показан истинный необходимый размер выборки.

Вышеприведённый график иллюстрирует то, как может функционировать эксперимент с фиксированной статистической мощностью. Для того чтобы облегчить восприятие графика, мы использовали небольшой размер выборки. В данном случае эксперимент останавливается в месте, очень близком к истинному необходимому размеру выборки. При использовании больших выборок (эффекты воздействия малой мощности), так как система оценки необходимого размера выборки становится точнее, область, в которой линия размера выборки пересекает линию предварительно рассчитанного необходимого размера выборки, часто может оказаться весьма компактной.

Схемы проведения экспериментов с фиксированной статистической мощностью: сводная информация из научной статьи

В нашей публикации были исследованы свойства оценки эффекта воздействия, основанной на разнице в средних значениях в последовательных экспериментах. Правило остановки этих экспериментов основано на точности оценки эффекта воздействия. Мы выражаем понятие «точность» двумя способами — как ширину доверительного интервала, и как текущий необходимый размер выборки для заданного гипотетического эффекта воздействия. Как показано в публикации — остановка, основанная на необходимом размере выборки, эквивалентна остановке, основанной на ширине доверительного интервала, так как это — лишь трансформация понятия дисперсии оценки эффекта воздействия.

Правила остановки подобного рода, основанные на точности, широко распространены на практике. Некоторые компании, занимающиеся организацией экспериментов, даже продают системы, в которых они используются. Но, насколько мы знаем, статистические последствия применения правил остановки, основанных на точности, не подвергались тщательным исследованиям.

Применение схемы проведения экспериментов с фиксированной статистической мощностью может заставить исследователя задуматься о «проблеме подглядывания» (peeking problem). Речь, в конце концов, идёт о правиле остановки, которое использует данные, полученные в ходе эксперимента, для определения момента остановки эксперимента. Именно из‑за этого мы, в первую очередь, используем последовательное тестирование. Поэтому есть смысл в том, чтобы ожидать необходимости коррекций в том случае, если, кроме того, эксперимент останавливают, основываясь на необходимом размере выборки. Но в публикации мы показали, что не все правила остановки, основанные на результирующих данных, создают одинаковые проблемы для статистического анализа. Наше исследование показало, что функции дисперсии выборки характеризуются меньшим количеством проблем, чем правила остановки, основанные, например, на уровнях значимости.

То, что именно в результирующих данных мы видим, «подглядывая», определяет последствия, если таковые имеются, для формирования вывода по интересующему нас оцениваемому показателю. В нашей работе мы показали, что, при применении схемы с фиксированной статистической мощностью, истинными являются следующие утверждения:

  • Оценка, основанная на разнице в средних значениях, последовательно выдаёт средний эффект воздействия.

  • Доверительный интервал фиксированной статистической мощности для среднего эффекта воздействия обладает асимптотически верным покрытием.

Это означает, что в больших выборках мы можем использовать стандартные подходы к анализу даже тогда, когда критерий остановки эксперимента основан на размере выборки, оцениваемой во время проведения эксперимента. При этом не нужно прилагать дополнительных усилий для того, чтобы гарантировать корректность результатов анализа.

В публикации мы, кроме того, предлагаем консервативную версию схемы с фиксированной статистической мощностью, в которой применяется выборка конечного размера, а так же — предлагаем применение доверительного интервала фиксированной ширины.

Вычисление размеров выборки до эксперимента — это сложная задача

Применение схемы проведения экспериментов с фиксированной статистической мощностью позволяет, при определении необходимого размера выборки, «подглядывать», не внося при этом изменений в результаты анализа. Почему это важно? Можно ли использовать исторические данные, анализируя статистическую мощность для определения необходимого размера выборки?

Часто возникает необходимость совместного применения оценки необходимого размера выборки в процессе эксперимента и анализа статистической мощности, который проводится до эксперимента. Это так из‑за того, что, при применении исторических данных, может не получиться точно описать итоговые распределения. Например, пользовательская база Spotify отличается многоплановостью, она подвержена постоянным изменениям. Особенно это касается новых рынков, когда к платформе подключаются новые пользователи, участвующие в экспериментах. Это делает ненадёжным сравнение исторических данных с актуальными данными. Кроме того, исторические данные не отражают эффекты воздействия, так как новые варианты продукта ещё не были протестированы. Нереальным выглядит и предположение о том, что эффекты воздействия оказывают однородное влияние на разные категории пользователей. Пользователи с разными привычками прослушивания музыки, весьма вероятно, по‑разному отреагируют на изменение одной и той же функции программы.

Применение результатов, полученных при проведении экспериментов, может повысить точность определения размеров выборки и заблаговременно проинформировать экспериментатора о том, насколько точным было его изначальное планирование. Благодаря тем гарантиям, которые нам даёт схема проведения экспериментов с фиксированной статистической мощностью, мы можем строить планы, основываясь на необходимом размере выборки, найденном до начала эксперимента. Мы можем пересматривать этот размер в ходе проведения эксперимента, и наконец — можем останавливать эксперимент в правильное время. И всё это — опираясь на стандартные инструменты анализа, применяемые при использовании выборки фиксированного размера.

Сравнение последовательного тестирования и тестирования с фиксированным размером выборки

Последовательные тесты дают корректные результаты при применении любых правил остановки. Поэтому — почему бы просто не положиться на такие тесты и «подглядывать», выясняя необходимый размер выборки, делая это так часто, как хочется? (Как минимум — речь идёт о так называемых «всегда корректных» последовательных тестах.)

Как уже обсуждалось во многих публикациях (здесь и в нашем предыдущем материале), тут имеется две основные причины:

  • Несмещённые точечные оценки. Последовательные тесты, критерий остановки которых основан на значимости, выдают оценки с отклонениями, преувеличивающими размер эффекта воздействия. Более того, идея остановки на первом уровне значимости резко контрастирует с советами, которые многие дают относительно того, что не нужно доверять экспериментам со слишком низкой статистической мощностью.

  • Статистическая мощность. В большинстве ситуаций эксперименты должны продолжаться, как минимум, в течение заданного периода времени. Это может быть важным, например, для получения данных от пользователей, участвующих в эксперименте, в течение достаточно длинного временного промежутка для устранения эффектов новизны. Другая причина, часто встречающаяся в Spotify, заключается в том, чтобы избегать проблем, связанных с сезонным эффектом, проявляющимся в будние дни. Использование последовательного тестирования в ситуациях, когда мы не планируем останавливать эксперимент, основываясь на первом уровне значимости — это пустая трата времени. Если остановка запрещена в течение большого отрезка времени эксперимента — последовательные тесты, не принимающие это во внимание, будут весьма консервативными.

Применение схем проведения экспериментов с фиксированной статистической мощностью даёт нам сильные стороны схем с фиксированной выборкой, к которым добавляется возможность информировать исследователя об остановке, основываясь на непрерывном анализе статистической мощности эксперимента.

Вот перечень различий между широко распространёнными схемами проведения экспериментов и схемой с фиксированной статистической мощностью.

Схемы последовательных экспериментов

Схемы традиционных экспериментов с фиксированным размером выборки

Схема экспериментов с фиксированной статистической мощностью

— Последовательные тесты позволяют выполнять раннюю остановку экспериментов с применением правила остановки, основанного на значимости или на любой другой функции от данных.

— Последовательные тесты при ранней остановке ограничивают уровень ложноположительных результатов и обеспечивают покрытие, по крайней мере, на заданном уровне.

— Последовательные тесты консервативны в том случае, если исследователю всегда нужно проводить эксперимент до достижения определённой точности. Это так из-за того, что они подстраиваются под раннюю остановку на определённом уровне значимости (даже если исследователь это не использует).

— Последовательные тесты (с ранней остановкой) дают смещённые оценки разницы в средних значениях.

— Тесты с фиксированным размером выборки требуют, чтобы размер выборки был бы определён и зафиксирован до начала эксперимента.

— Для того чтобы достичь определённой точности, нужно, до начала эксперимента, оценить дисперсию результата или результатов по историческим данным, спланировав таким образом размер выборки.

— Оценки разницы в средних не подвергаются отклонениям, стандартный доверительный интервал фиксированной выборки обладает правильным покрытием.

— Применение схемы с фиксированной статистической мощностью позволяет оценить текущий необходимый размер выборки на основе данных, получаемых в процессе эксперимента.

— Эксперимент, проводимый по схеме с фиксированной статистической мощностью, может остановиться в том случае, когда текущий размер выборки оказывается больше оценочного необходимого размера выборки.

— При применении схемы с фиксированной статистической мощностью стандартные оценки разницы в средних отличаются единообразием, а доверительный интервал фиксированной выборки отличается асимптотическим номинальным покрытием.

Итоги

В постоянно развивающейся среде онлайн‑экспериментов определение оптимального времени остановки эксперимента остаётся значительной проблемой. Традиционные методы, такие — как выборка фиксированного размера и схемы последовательных экспериментов, отличаются определёнными ограничениями. Так, схемы проведения экспериментов с применением выборки фиксированного размера предусматривают заблаговременное определение размеров выборки, но не позволяют уточнять этот параметр на основе данных, поступающих в ходе эксперимента. А последовательные тесты поддерживают настройку размера выборки, но при их проведении может быть оказано воздействие на статистическую мощность исследования и на непредвзятость результатов.

В нашей недавней публикации предложен инновационный подход, названный «fixed‑power design» (схема эксперимента с фиксированной статистической мощностью). Этот метод позволяет начинать эксперименты, не обладая сведениями о необходимом размере выборки, которого нужно достичь. Вместо этого необходимый размер выборки определяется на основе данных, поступающих при проведении эксперимента. И уже в ходе эксперимента принимается решение о том, когда текущий размер выборки превышает оценочное значение. Очень важно то, что наша схема поддерживает стандартные средства анализа, гарантирует единообразные точечные оценки и поддерживает номинальное покрытие в доверительных интервалах. Всё это значит, что схема с фиксированной статистической мощностью позволяет применять «последовательный» метод остановки эксперимента, не теряя при этом мощных возможностей стандартных тестов.

Применение нашего подхода сулит особенно большие преимущества в средах, напоминающих ту, что существует в Spotify, где пользовательская база отличается разнообразием и постоянно меняется. В таких средах традиционное нахождение размеров выборок, выполняемое перед экспериментами и основанное на исторических данных, часто не оправдывает ожиданий. Дело в том, что в этих вычислениях не учитывают изменчивости эффекта воздействия в разных сегментах существующих пользователей платформы или в сегменте новых пользователей.

Схема проведения эксперимента с фиксированной статистической мощностью даёт практический баланс между жёсткостью экспериментов с фиксированным размером выборки и гибкостью последовательных тестов. Эта схема даёт надёжную опору для принятия решений в деле разработки программного обеспечения. И, в то же время, это не значит, что она решает абсолютно все вопросы. Хотя эта схема и позволяет выполнять подбор необходимого размера выборки в реальном времени, с ней связана проблема выяснения необходимого размера выборки на стадии планирования эксперимента. В Spotify, где производятся десятки тысяч тестов, всегда имеются ограничения на масштабы экспериментов, которые может провести некая команда. Предположим, в ходе эксперимента выяснено, что размер выборки оказался гораздо больше чем тот, на который рассчитывала команда. В такой ситуации, из‑за конфликтующих экспериментов, не всегда возможно проводить эксперимент дольше, или увеличить его целевую аудиторию. В подобном случае схема с фиксированной статистической мощностью предлагает механизм, позволяющий на ранних стадиях эксперимента узнать о том, соответствуют ли полученные данные тому анализу статистической мощности, который проводился до начала эксперимента.

О, а приходите к нам работать? ? ?

Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.

Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.

Присоединяйтесь к нашей команде

Комментарии (2)


  1. vadimr
    30.09.2024 09:36

    Вообще ничего не понятно в машинном переводе.

    По-английски, наверное, разобрался бы в этой статье, но на этом загадочном псевдорусском языке она нечитаема.

    Но похоже, как обычно принято в европейской науке, автор применяет дисперсию, не имея для этого достаточных оснований. 50 экспериментов разве дают ему гарантию унимодального нормального распределения? Если да, то где и как это показано? А если нет, то о какой дисперсии идёт речь? Он доказал, что у его выборки вообще есть дисперсия?


    1. vadimr
      30.09.2024 09:36

      В начале рассуждений автор неявно предполагает, что у него достаточно много измерений, чтобы выборка характеризовалась моментами первого и второго порядка, а в конце делает из этого вывод, что в ней действительно достаточно много измерений, что по ним можно посчитать момент второго порядка. Порочный круг.