Большой гайд по A/B-тестированию / forpes.ru

Главная
Большой гайд по A/B-тестированию

Большой гайд по A/B-тестированию +6

23.04.2020 15:09

Boodetonline 0 1800 Источник

В интернете масса информации об A/B-тестированиях, но многие до сих пор проводят их неправильно. Ошибиться действительно легко, поэтому подобные исследования требуют серьезной предварительной подготовки. В этой статье рассматриваются основные аспекты A/B-тестирования, которые необходимо учитывать для эффективного анализа веб-страниц.

Что такое A/B-тестирование?

A/B тестирование (сплит-тестирование) разделяет трафик в соотношении 50/50 между разными версиями страницы. По сути, этот метод — новое название для старой техники, известной как «контролируемый эксперимент».

Для проверки эффективности новых лекарств специалисты проводят сплит-тесты. Фактически, большинство исследовательских экспериментов можно назвать A/B-тестированием. Они включают в себя гипотезу, основной объект исследования, его вариацию и результат, представленный в виде статистических данных.

Вот и все. В качестве примера можно привести простое A/B-тестирование, при котором трафик в соотношении 50/50 делится между основной страницей и ее вариацией:

В случае с оптимизацией конверсии основное отличие состоит в изменчивости интернет-трафика. Внешние переменные легче контролировать в лаборатории. В интернете вы можете уменьшить их влияние, но создать полностью контролируемый тест гораздо сложнее.
Кроме того, тестирование новых лекарств требует определенной степени точности. На кон поставлены жизни людей. С технической точки зрения это значит, что тестирование может продолжаться дольше, так как исследователи должны сделать все возможное, чтобы избежать ошибки первого рода (ложное срабатывание).

Однако, A/B-тестирование веб-ресурсов проводится для достижения бизнес-целей. Оно необходимо для анализа рисков и вознаграждений, разведки и разработки, науки и бизнеса. Поэтому результаты рассматриваются с другой точки зрения, а решения принимаются не так, как у исследователей в лабораториях.

Конечно, вы можете создать более двух вариаций страницы. Исследование с несколькими элементами называют A/B/n-тестированием. Если трафика достаточно, то протестировать можно столько вариантов, сколько вам заблагорассудится. Вот пример A/B/C/D-тестирования с указанием трафика, выделенного для каждой вариации:

A/B/n-тестирование отлично подходит для реализации нескольких вариаций с целью проверки одной гипотезы. Однако, оно потребует больше трафика, поскольку его придется разделять на большее количество страниц.

Несмотря на свою популярность, A/B-тестирования являются лишь одним из видов онлайн-исследований. Вы также можете проводить многовариантные тесты или использовать метод многоруких бандитов.

A/B-тестирование, многовариантные тесты и метод многоруких бандитов: в чем разница?
A/B/n-тестирования — это контролируемые эксперименты, по результатам которых сравниваются коэффициенты конверсий исходной страницы и ее одной или нескольких вариаций.

Многовариантные тесты проводятся на нескольких версиях страницы с целью определить, какие атрибуты имеют наибольшее значение. Как и в случае A/B/n-тестирования, оригинал сравнивается с вариациями. Однако, в каждом варианте используются разные элементы дизайна. Например:

Каждый элемент имеет определенный сценарий использования и оказывает влияние на эффективность страницы. Добиться максимальной отдачи от сайта можно следующими способами:

Провести A/B-тестирование, чтобы определить лучшие варианты макетов страниц.
Провести многовариантные тесты, чтобы усовершенствовать макеты и убедиться в том, что все элементы страниц хорошо взаимодействуют друг с другом.

Вам потребуется привлечь огромное количество пользователей на тестируемую страницу, прежде чем даже рассматривать возможность многовариантного тестирования. Однако, трафика достаточно, для оптимизации сайта следует использовать оба типа исследований.
Большинство агентств отдают предпочтение A/B-тестированию, поскольку их клиенты обычно тестируют значительные изменения (в потенциале сильнее влияющие на страницу). К тому же, их проще проводить.

Метод многоруких бандитов — это A/B/n—тесты, которые обновляются в режиме реального времени на основе эффективности каждой вариации.

По сути, алгоритм многоруких бандитов начинается с отправки трафика на две (или более) страницы: оригинал и ее вариант(ы). Затем он обновляется в зависимости от того, какая из вариаций является наиболее эффективной. В конце концов, алгоритм определяет лучший вариант из возможных:

Одно из преимуществ метода многоруких бандитов заключается в том, что они смягчают потери конверсии, которые вы испытываете при тестировании потенциально худшего варианта. Эта диаграмма от Google хорошо все объясняет:

И у метода многоруких бандитов, и у A/B/n-тестирований имеются сильные стороны. Первый идеально подходит для:

Заголовков и краткосрочных кампаний;
Автоматического масштабирования;
Таргетинга;
Одновременной оптимизации и атрибуции.

Вне зависимости от того, какой тип тестирования вы применяете, важно стараться повысить шансы на успех. Иными словами, чем чаще вы проводите тесты, тем быстрее увеличится конверсия.

Как улучшить результаты A/B-тестирования

Не обращайте внимания на статьи наподобие «99 вещей, которые можно протестировать с помощью A/B-тестирования». Это пустая трата времени и трафика. Только сам процесс поможет вам увеличить доход.

Около 74% оптимизаторов со структурированным подходом к конверсии также заявляют об улучшении продаж. Остальные попадают туда, что веб-аналитик Крейг Салливан называет «корытом разочарования». (Если только их результаты не испорчены ложными срабатываниями, о которых мы поговорим позже.)

Для наибольшей эффективности структура тестирования должна выглядеть следующим образом:

Исследование;
Расстановка приоритетов;
Экспериментирование;
Анализ, обучение, повторение.

Исследование

Для оптимизации сайта необходимо понять, что и почему делают ваши пользователи.
Однако, прежде чем задумываться о тестировании, укрепите свою стратегию привлечения пользователей и отталкивайтесь от нее. Итак, вам нужно:

Определить цели вашего бизнеса.
Определить цели вашего веб-сайта.
Определить ваши ключевые показатели эффективности;
Определить ваши целевые метрики.

Как только вы поймете, чего хотите добиться, можно начать собирать необходимые данные. Для этого мы рекомендуем использовать ResearchXL Framework.
Вот краткий перечень процессов, применяемый в компании CXL:

Эвристический анализ;
Технический анализ;
Анализ данных систем веб-аналитики;
Анализ движения мыши;
Качественные опросы;
Пользовательское тестирование.

Эвристический анализ — это одна из лучших практик A/B-тестирования. Даже имея многолетний опыт, тяжело понять, какие именно элементы страницы увеличивают ее эффективность. Однако, можно определить области возможностей. Специалист по UX Крейг Салливан считает:

“По моему опыту, эти паттерны упрощают работу, но не являются прописными истинами. Они направляют и информируют меня, но не дают никаких гарантий».

Не стоит полагаться на паттерны. Также полезно иметь фреймворк. При проведении эвристического анализа стоит оценивать каждую страницу по следующим критериям:

Релевантность;
Ясность;
Ценность;
Трение;
Отвлечение.

Технический анализ часто упускается из виду. Однако, ошибки (если они есть) убивают конверсию. Вам может казаться, что ваш сайт работает отлично с точки зрения пользовательского опыта и функциональности. Но работает ли он одинаково хорошо с каждым браузером и устройством? Возможно, что нет.

Технический анализ очень эффективен и при этом не очень трудозатратен. Поэтому вам следует:

Провести кросс-браузерное и кроссплатформенное тестирование.
Проанализировать скорость работы сайта.

Следом идет анализ данных систем веб-аналитики. В первую очередь, убедитесь, что все работает. Вы будете удивлены количеством настроек систем веб-аналитики, которые выставлены неверно.

Анализ движения мыши включает тепловые карты, карты скроллинга, аналитику форм и повторы пользовательских сессий. Не увлекайтесь красочной визуализацией карт кликов. Убедитесь, что анализ помогает вам получать информацию, необходимую для достижения целей.
Качественное исследование позволяет понять причины проблем. Многие думают, что оно проще количественного. В действительности, качественное исследование должно быть таким же точным, чтобы предоставлять не менее полезную информацию.

Для этого необходимо проводить:

Опросы на сайте;
Опросы клиентов;
Интервью с клиентами и фокус-группами.

Наконец, можно использовать пользовательское тестирование. Идея проста: понаблюдайте за тем, как реальные люди используют ваш веб-сайт и взаимодействуют с ним, одновременно с этим комментируя свои действия. Обратите внимание на то, о чем они говорят и что испытывают.

После тщательного исследования конверсии у вас будет много данных. Следующим шагом является расстановка приоритетов для тестирования.

Как расставлять приоритеты гипотез при A/B-тестировании

Существует множество фреймворков для определения приоритетов ваших A/B-тестов. Более того, вы можете делать это на основе собственных методов. Крейг Салливан расставляет приоритеты следующим образом:

По завершении всех шести этапов, описанных выше, вы обнаружите проблемы — как серьезные, так и незначительные. Распределите каждую находку в одну из пяти категорий:

Тестирование.В эту категорию будет отправлено все, что необходимо протестировать.
Инструменты.К этой категории можно отнести исправление, добавление или улучшение обработки тегов/событий при аналитике.
Построение гипотезы.В эту категорию определяются страницы, виджеты или процессы, которые работают не очень хорошо и требуют работы над ошибками.
Просто сделайте это.Используйте эту категорию для тех задач, которые просто необходимо сделать.
Изучение.Если задача попала в эту категорию, для ее решения придется копнуть поглубже.

Оцените каждую проблему от 1 до 5 звезд (1 = незначительная, 5 = критическая). При оценке наибольшее значение имеют следующие два критерия:

Простота реализации(время/сложность/риск). Иногда данные говорят вам о необходимости создать функцию, на разработку которой уйдут месяцы. Не начинайте работу с нее.
Возможность. Оценивайте вопросы субъективно в зависимости от того, насколько большой подъем или изменение они могут вызвать.

Создайте электронную таблицу со всеми вашими данными. Вы получите схему сплит-тестирования с выставленными приоритетами.

Мы создали собственную модель приоритизации, чтобы сделать весь процесс как можно более объективным. Она подразумевает обязательное внесение данных в таблицу. Модель называется PXL и выглядит следующим образом:

Скачайте копию этого шаблона для электронной таблицы здесь. Просто нажмите «Файл» > «Создать копию», чтобы получить все необходимое.

Вместо предсказывания эффективности изменения фреймворк задает вам ряд вопросов о нем:

Значительное ли изменение? Серьезные обновление заметит больше людей. Следовательно, изменение окажет большее влияние на страницу.
Можно ли заметить изменение за 5 секунд? Покажите группе людей страницу, а затем ее вариацию(и). Заметят ли они различия за 5 секунд? Если нет, то изменение вряд ли окажет серьезное влияние.
Добавляет или удаляет ли что-нибудь изменение? Серьезные изменения наподобие уменьшения отвлекающих факторов или добавления ключевой информации обычно сильно влияют на страницу.
Работает ли тест на страницах с большим трафиком? Улучшение страницы с большим трафиком дает большую отдачу.

Многие потенциальные тестовые переменные требуют данных для определения приоритетности ваших гипотез. Еженедельные обсуждения, в ходе которых задаются следующие четыре вопроса, помогут вам определить приоритеты тестирования на основе данных, а не мнений:

Устранится ли проблема, обнаруженная в ходе пользовательского тестирования?
Решаются ли проблемы, обнаруженные с помощью качественной обратной связи (опросы, голосования, интервью)?
Поддерживается ли гипотеза данными об отслеживании мыши, тепловыми картами или трекингом глаз?
Решаются ли проблемы, обнаруженные благодаря цифровой аналитике?

Оцениваение PXL

Мы используем бинарную шкалу: вы должны выбрать одну оценку из двух. Таким образом, для большинства переменных (если не указано иное) вы выбираете либо 0, либо 1.
Однако, мы также хотим сортировать переменные по важности. Для этого мы специально описываем, какие элементы страницы меняются.

Настраиваемость

Мы создали эту модель, полагая, что вы можете и должны настраивать переменные в зависимости от целей вашего бизнеса.

К примеру, если вы работаете с командой по брендингу или пользовательскому опыту и гипотезы должны соответствовать рекомендациям бренда, добавьте их в качестве переменной.
Возможно, вы работаете в стартапе, двигатель продаж которого работает от SEO. Возможно, ваше финансирование зависит от потока клиентов. Добавьте категорию наподобие «не мешает SEO», чтобы изменить некоторые заголовки или тексты.

Все организации работают по-разному. Настройка шаблона поможет учесть все нюансы и создать оптимальную программу для оптимизации сайта.

Какой бы фреймворк вы ни использовали, сделайте так, чтобы он был понятен каждому члену команды, а также акционерам компании.

Как долго проводить А/Б тесты?

Первое правило: не прекращайте тест только потому, что она становится статистически значимой. Вероятно, это самая распространенная ошибка, которую допускают начинающие оптимизаторы.

Если вы слишком рано остановите тестирование, то обнаружите, что большинство изменений не приводит к увеличению дохода (что и является основной целью).
Обратите внимание на эту статистику, полученную после 1000 A/A-тестов (он проводился для двух идентичных страниц):

771 эксперимент из 1000 достигал значимости в 90%.
531 эксперимент из 1000 достигал значимости в 95%.

Преждевременная остановка тестов увеличивает риски ложных срабатываний.
Определите размер выборки и проводите тестирование на протяжении нескольких недель хотя бы два рабочих цикла подряд.

Как определить размер выборки? Существует много отличных инструментов. Вот как вы можете рассчитать размер выборки с помощью инструмента Эвана Миллера:

В этом примере мы указали, что коэффициент конверсии составляет 3% и мы хотим увеличить этот показатель как минимум на 10%. Этот инструмент утверждает, что каждую вариацию должны посетить 51 486 человек, прежде чем мы сможем взглянуть на уровни статистической значимости.

Помимо уровня значимости существует статистическая сила. Статистическая мощность пытается избежать ошибок типа II (ложные отрицания). Другими словами, она повышает вероятность того, что вы обнаружите наиболее эффективный элемент страницы.

Помните, что 80% мощности является стандартом для инструментов A/B-тестирования. Чтобы достичь такого уровня, вам понадобится либо большой размер выборки, либо грандиозный эффекта, либо более длительный тест.

Волшебных чисел не существует

Во многих статьях указываются магические числа (например, «100 конверсий» или «1000 посетителей») в качестве лучшего момента для остановки тестирования. Однако, математика не имеет ничего общего с волшебством. В действительности все сложнее упрощенной эвристики наподобие этих цифр. Вот что об этом говорит Эндрю Андерсон из Malwarebytes:

«Ваша цель — не определенное число конверсий. Вы должны стремиться собрать достаточно данных для проверки гипотезы на основе репрезентативных выборок и репрезентативного поведения.

Сто конверсий возможны только в самых редких случаях и с невероятно высокой разницей в поведении, но только если выполняются другие требования — такие, как поведение во времени, согласованность и нормальное распределение. При этом риск возникновения ошибки первого рода остается очень высоким».

Итак, вам необходим репрезентативный образец. Как его получить? Проводите тестирование в течение двух экономических циклов, что поможет снизить влияние таких внешних факторов, как:

\День недели. Ежедневный трафик может сильно меняться в зависимости от дня недели.
\Источники трафика. За исключением тех случаев, когда необходимо персонализировать опыт для определенного источника.
\Расписание отправки рассылок и публикаций в блоге.
\Вернувшиеся посетители. Люди могут посетить ваш сайт, задуматься о покупке, а затем вернуться спустя 10 дней, чтобы совершить ее.
Внешние события. Например, выдача зарплаты в середине месяца может повлиять на покупку.

Будьте осторожны с небольшими выборками. В интернете много тематических исследований, наполненных математическими ошибками.

Как только вы все настроите, не смотрите (и не позволяйте боссу подглядывать) на результаты теста до его окончания. Иначе вы можете сделать преждевременные выводы, «обнаружив тренд».

Регрессия к среднему

Вы часто будете замечать, что результаты сильно различаются в первые несколько дней теста. Впоследствии они сойдутся к среднему значению, поскольку тест продолжается на протяжении нескольких недель. Вот пример статистики сайта электронной коммерции:

Первые пару дней: синий (вариант №3) с отрывом побеждает. Вариация приносит 16 долларов за посетителя против $12,50, которую приносит исходная страница. Многие (по ошибке) закончили бы тестирование на этом этапе.
Спустя 7 дней: синий вариант страницы все еще выигрывает, а относительная разница достаточно велика.
Спустя 14 дней: Оранжевый вариант (№4) выходит в лидеры!
Спустя 21 день: Оранжевый вариант до сих пор побеждает!
Конец тестирования: между вариантами нет различий.

Если бы вы завершили тестирование раньше четвертой недели, то сделали бы ошибочный вывод.

Существуют похожая проблема: эффект новизны. Новизна ваших изменений (например, большая синяя кнопка) привлекает больше внимания к варианту страницы. Со временем этот эффект исчезает, поскольку изменение постепенно перестанет быть актуальным.

Можно ли проводить несколько A/B-тестов одновременно?

Вы стремитесь ускорить свою программу тестирования и запустить больше тестов. Однако, можно ли запустить более одного A/B теста одновременно? Это увеличит ваш потенциал роста или исказит полученные данные?

Некоторые эксперты утверждают, что проводить несколько тестов одновременно неправильно. Некоторые говорят, что все в порядке. В большинстве случаев у вас не будет проблем при проведении нескольких одновременных тестов.

Если вы не тестируете действительно важные вещи (например, что-то, что влияет на вашу бизнес-модель и будущее компании), то преимущества от объема тестирования, вероятно, перевесят недостатки ваших данных и случайные ложные срабатывания.
Если существует высокий риск взаимодействия между несколькими тестами, уменьшите количество одновременных тестов и/или дайте тестам работать дольше для повышения точности.

Как настраивать A/B-тесты

После составления списка тестовых идей с расставленными приоритетами необходимо сформулировать гипотезу и провести эксперимент. Гипотезой вы определяете, по какой причине возникает проблема. Кроме того, хорошая гипотеза:

Поддается проверке. Она измерима, поэтому ее можно проверить.
Решает проблему конверсии. Сплит-тестирование решает проблемы конверсии.
Обеспечивает понимание рынка. С четко сформулированной гипотезой результаты вашего сплит-тестирования всегда предоставят вам ценную информацию о клиентах.

Крейг Салливан предлагает следующий алгоритм для упрощения процесса составления гипотезы:

Так как мы получили (данные/обратную связь),
Мы ожидаем, что (изменение) вызовет (эффект).
Мы измерим его, используя (метрику данных).

Есть продвинутая версия этого алгоритма:

Так как мы получили (качественные и количественные данные),
Мы ожидаем, что (изменение) для (населения) вызовет (эффект[ы]).
Мы ожидаем увидеть (изменение метрик данных) за период (X бизнес-циклов).

Технические вопросы

Настала самая занимательная часть тестирования: вы наконец можете выбрать инструмент для его проведения.

Многие приступают к этому вопросу в первую очередь, но это далеко не самое главное. Стратегия и статистические данные гораздо важнее.

Тем не менее, существуют несколько особенностей инструментов, о которых вы должны помнить. Они делятся на две основные категории: инструменты на стороне сервера или на стороне клиента.

Серверные инструменты отображают код на уровне сервера. Они отправляют рандомизированную версию страницы зрителю без изменений в браузере посетителя. Инструменты на стороне клиента отправляют ту же страницу, но JavaScript в браузере клиента управляет внешним видом исходной страницы и ее вариантом.

К инструментам тестирования на стороне клиента относятся Optimizely, VWO и Adobe Target. Conductrics позволяет использовать оба метода, а SiteSpect использует прокси-сервера.
Что все это значит для вас? Если вы хотите сэкономить время, ваша команда невелика или у вас нет ресурсов для разработки, инструменты на стороне клиента помогут вам быстрее начать работу. Инструменты, работающие на стороне сервера, требуют ресурсов для разработки — однако, как правило, они более надежны.

Хотя настройка тестов немного отличается в зависимости от того, какой инструмент вы используете, зачастую весь процесс очень простой и справиться с ним может любой человек — достаточно просто следовать инструкции.

Кроме того, вам нужно установить цели. Ваш инструмент тестирования будет отслеживать, когда каждый вариант страницы превращает посетителей в клиентов.

При настройке A/B-тестов пригодятся следующие навыки: HTML, CSS и JavaScript / JQuery, а также умение создавать тексты и проектировать новые вариации страниц. Некоторые инструменты позволяют использовать визуальный редактор, но он ограничивает вашу гибкость и контроль.

Как анализировать результаты A/B-тестов?

Итак, вы наконец провели исследование, правильно настроили тест и провели его. Теперь перейдем к анализу. Это не так просто — недостаточно лишь взглянуть на график из вашего инструмента тестирования.

Одна вещь, которую вы всегда должны делать: анализировать результаты своего теста в Google Analytics. Так вы не просто расширяете ваши возможности анализа, но и становитесь более уверенным в своих данных и принятии решений.

Ваш инструмент тестирования может неправильно записывать данные. Если у вас нет другого источника информации, вы никогда не можете быть уверены, стоит ли доверять ли ему. Создайте несколько источников данных.

Что происходит, если нет различий между вариациями? Не торопитесь. Во-первых, осознайте две вещи:

Ваша гипотеза могла быть верной, но реализация оказалась неверной.
Допустим, ваше качественное исследование говорит о наличии проблемы безопасности. Сколько раз вы можете улучшить восприятие безопасности? Неограниченное количество.
Используйте итеративное тестирование, если хотите что-то проверить, и сравните несколько итераций.
Даже при отсутствии ощутимой разницы в целом, вариация может превзойти исходную страницу по некоторым показателям.

Если вы заметили увеличение эффективности среди постоянных и мобильных посетителей, но не для новых посетителей и пользователей настольных компьютеров, эти сегменты могут компенсировать друг друга, создавая впечатление, что «разница отсутствует». Проанализируйте свой тест по ключевым сегментам, чтобы исследовать эту возможность.

Сегментация данных для A/B-тестов

Сегментирование — это ключ к извлечению выгоды из результатов A/B-тестирования. Несмотря на то, что B может проиграть A в общих результатах, вариация может победить оригинал страницы в определенных сегментах (органический трафик, переходы с Facebook, мобильный трафик и т. д.).

Существует огромное количество сегментов, которые вы можете проанализировать, включая следующие:

Тип браузера;
Тип источника;
Мобильный или настольный компьютер или устройство;
Зарегистрированные и вышедшие из системы посетители;
PPC/SEM-кампании;
Географические регионы (город, штат/провинция, страна);
Новые и постоянные посетители;
Новые и повторные покупатели;
Продвинутые пользователи против случайных посетителей;
Мужчины против женщин;
Возрастной диапазон;
Новые и уже представленные лиды;
Типы планов или уровни программы лояльности;
Текущие, потенциальные и бывшие подписчики;
Роли (если, например, ваш сайт предлагает роли покупателя и продавца).

В крайнем случае (при условии, что у вас адекватный размер выборки) обратите внимание на эти факторы:

Популярность десктопной и мобильной версии;
Новые клиенты против возвращающихся;
Пропадающий трафик.

Убедитесь, что у вас достаточный размер выборки в сегменте. Рассчитайте его заранее, и будьте осторожны, если данный сегмент насчитывает меньше 250–350 конверсий за вариацию.
Если ваши действия показали хорошие результаты для определенного сегмента, вы можете переходить к индивидуальному подходу к этим пользователям.

Как заархивировать проведенные A/B-тесты

A/B-тестирование в первую очередь необходимо для сбора информации. Статистически верные тесты, проведенные согласно инструкции, помогут добиться основных целей роста и оптимизации.

Умные компании архивируют результаты тестов и постоянно совершенствуют подходы к тестированию. Структурированный подход к оптимизации дает больший рост и реже ограничивается локальными ограничениями.

Самая сложная часть заключается в следующем: не существует единственного лучшего способа структурировать управление знаниями. Некоторые компании используют сложные встроенные инструменты; некоторые используют сторонние инструменты; а некоторые ходят с Excel и Trello.
Вот три инструмента, созданных специально для оптимизации конверсии:

Iridion;
Effective Experiments;
Growth Hackers’ Projects.

Статистика, получаемая благодаря A/B-тестам

Знания статистики полезны при анализе результатов A/B-теста. Мы рассмотрели некоторые из них в разделе выше, но это еще не все.

Есть три понятия, которые вы должны знать перед тем, как изучать подробности статистики, получаемой благодаря A/B-тестам:

Среднее значение. Мы измеряем не все коэффициенты конверсии, а только образец. Среднее является лишь представителем целого.
Дисперсия. Мера разброса значений случайной величины относительно ее математического ожидания. Она влияет на результаты тестов и то, как мы их используем.
Отбор. Мы не можем измерить истинный коэффициент конверсии, поэтому выбирается репрезентативный образец.

Что такое P-значение?

Многие используют термин «статистическая значимость» некорректно. Сама по себе она не является сигналом для остановки тестирования. Так что же это и почему она так важна?
Для начала давайте рассмотрим P-значения, в которых также мало кто разбирается. Даже сами ученые порой в них путаются!

P-значение — это величина, характеризующая вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Она не доказывает, что вероятность B выше, чем A. Это распространенное заблуждение.

Подводя итог, можно сказать, что статистическая значимость (или статистически значимый результат) достигается, когда P-значение меньше уровня статистической значимости (который обычно устанавливается равным 0,05).

Односторонние и двусторонние A/B-тесты

Односторонний тест позволяет обнаружить изменение в одном направлении, в то время как двусторонний тест позволяет обнаружить изменение по двум направлениям (как положительное, так и отрицательное).

Не переживайте, если ваше ПО для тестирования поддерживает только один из типов A/B-тестов. При необходимости односторонний тест легко конвертируется в двусторонний и наоборот (однако, сделать это нужно до проведения теста). Единственное отличие заключается в пороговом уровне значимости.

Если в вашем программном обеспечении используется односторонний тест, просто разделите используемое P-значение на два. Чтобы ваш двусторонний тест был достоверен минимум на 95%, установите уровень достоверности на отметке в 97,5%. Если же вы хотите добиться достоверности в 99%, то вам нужно выбрать значение 99,5%.

Доверительные интервалы и предел погрешности

Коэффициент конверсии обозначается не просто как X%. Он указывается примерно в таком виде: X% (± Y). Второе число в этой формуле — доверительный интервал, и он крайне важен для понимания результатов сплит-теста.

Доверительные интервалы используются в A/B-тестировании, чтобы минимизировать риск возникновения ошибки выборки. В этом смысле мы управляем риском, связанным с внедрением нового варианта страницы.

Поэтому, если ваш инструмент показывает что-то наподобие: «Мы на 95% уверены, что коэффициент конверсии составляет X% ± Y%», тогда вам нужно учитывать ± Y% как предел погрешности.

Достоверность результатов во многом зависит от величины погрешности. Если два диапазона конверсии перекрываются, вам необходимо продолжить тестирование, чтобы получить результат, более похожий на правду.

Угрозы внешней валидности

Сплит-тесты усложняет тот факт, что данные не статичны.

Временной ряд можно назвать стационарным, только если его статистические свойства (среднее значение, дисперсия, автокорреляция и т. д.) постоянны во времени. По многим причинам данные веб-сайта не являются стационарными. Следовательно, мы не можем делать те же предположения, что и для стационарных данных. Вот несколько факторов, из-за которых данные могут меняться:

Время года;
День недели;
Каникулы;
Позитивные или негативные упоминания в прессе;
Другие маркетинговые кампании;
PPC/SEM;
SEO;
Сарафанное радио.

Это лишь некоторые из факторов, которые нужно учитывать при анализе результатов A/B-тестов.

Байесовская и частотная статистика

Многие популярные инструменты позволяют использовать как Байесовский, так и частотный подход к A/B-тестированию. Чем они отличаются?

Говоря простыми словами, в Байесовской статистике гипотезе присваивается вероятность, а в частотной статистике она проверяется без присвоения вероятности.

У каждого подхода есть свои преимущества. Однако, если вы только начинаете постигать азы A/B-тестирования, то беспокоиться о выборе методологии вам нужно в последнюю очередь.

Вывод

A/B-тестирование — это бесценный кладезь информации для всех, кто принимает решения в онлайн-среде. Приложив немного знаний и много усилий, вы сможете уменьшить многие риски, с которыми сталкивается большинство начинающих оптимизаторов.

Углубившись в тему, вы сможете опередить 90% людей, занимающихся веб-аналитикой. Опыт и постоянная практика позволят вам в совершенстве овладеть этим методом исследования. Так что начинайте проводить тесты!