Про А/В-тесты не слышали, наверное, только самые зеленые маркетологи и продакт-менеджеры, но как их проводить и что делать с результатами — иногда не знают даже опытные специалисты. Именно из-за этого можно часто услышать, что А/В-тестирование не работает и в целом бесполезно.

Чтобы развеять слухи, мы поговорили с практиком А/В-аналитики из агентства Agima Сергеем Филатовым, и он рассказал нам о работающих методологиях А/В-тестирования, инструментах, которые помогают провести тесты для мобильного приложения, и о перспективах, которые открывает овладение этим пулом умений и навыков.

А/В-тесты — это вообще-то любое исследование, посвященное тому, чтобы выбрать лучший вариант из нескольких. Штука в том, что термин очень широк: это и тесты у маркетологов, и тип анализа цифровых продуктов. Это часто вызывает путаницу, когда видишь кейс, что «компания провела А/В-тестирование», и надо разбираться какое — общее или все же техническое. Мы будем говорить именно об А/В-тестах для оценки функционала мобильных приложений. (Впрочем, эти знания можно будет легко перенести и в сферу маркетинговых исследований.)

Этот материал — часть серии, подготовленной к запуску совместного курса онлайн-университета Skillbox и агентства Agima, «Fullstack мобильный разработчик». Мы уже рассказали, как с первого раза попасть в AppStore, и про то, как разрабатывать интерфейсы приложений, в процессе раздав несколько десятипроцентных скидок и четыре скидки в 20%.

Тем, кто уже разгадал два ребуса и хочет еще (чтобы нарастить суммирующуюся скидку), сегодня достанется загадка про инструмент тестирования. Ищите ее в тексте! А остальные хаброюзеры всё так же могут заказать любой курс на 10 000 рублей дешевле, использовав промокод «Хабр» (напомним, что со скидками, которые дают разгаданные ребусы, это не суммируется).




А/В-тестирование обычно воспринимают как аналитический инструмент, который позволяет оценить влияние изменений продукта на его конверсию — увеличение количества лидов, переходящих в заказы. Конверсия здесь не обязательно покупка чего-либо: это и любой переход пользователя с одного этапа на другой по мере прохождения им воронки заказа, и каждое его взаимодействие с формами и элементами сервиса на этом пути.

А/В-тест нужен для того, чтобы:


  • выбрать из нескольких вариантов экрана или страницы лучший;
  • оценить возможности изменения тех или иных показателей вашего продукта;
  • вычислить результативность замены тех или иных элементов на странице или экране;
  • понять, как повысить конверсию на каждом этапе воронки продаж, а следовательно, увеличить их количество;
  • внутри мобильного приложения А/В-тесты дают возможность улучшить пользовательский опыт, позволив удобнее расположить элементы и сделать контент интереснее и полезнее для пользователя.

Постановка задачи


Любой А/В-тест начинается с гипотезы. Они бывают двух видов. Первые — более маркетинговые, нацеленные на увеличение трафика, количества людей, совершающих то или иное действие и уточнение того, на какую аудиторию ориентировано приложение. В данном случае тестируются не столько функционал самого приложения, сколько маркетинговые каналы и конверсии с каждого рекламного инструмента. Мы же сосредоточимся на втором типе гипотез.

Он заключается в том, что, изменив тот или иной внутренний функционал — элемент или блок, связь между ними или логику их взаимодействия, — мы можем добиться изменения определенных показателей работы приложения (впрочем, всё это применимо и к сайтам).

Эти гипотезы могут касаться либо элементов, которые располагаются на экранах сервиса, либо связей экранов внутри него. К сожалению, тестирование связей между экранами технически проблематично из за трудностей настройки теста, поэтому обычно аналитик ограничивается работой над конкретными блоками и отдельными экранами.

Суть А/В-тестирования в этом случае заключается в том, что одной группе пользователей демонстрируется один вариант расположения или конфигурации интерфейса, а второй — другой.

А вот и ребус! Напомним, что английский здесь может мешаться с русским, а тематика загадки — мобайл. И не забывайте, что мы будем тщательно следить за комментариями и удалять из них подсказки и ответы! Промослово, зашифрованное в ребусе, следует назвать, когда с вами свяжется наш менеджер после того, как вы отправите заявку на курс. Скидки за разгаданные ребусы суммируются между собой (с учетом этой статьи их уже три), но не со скидками на сайте. Слишком медлить не стоит — промо работает до 30 августа 2018 года.



От желаемого результата до поиска решений


У гипотез этого вида есть одно общее правило: на старте задается определенный конечный показатель, который мы хотим увеличить или уменьшить. Гипотезы могут формулироваться на основании отчетов и другой подобной аналитической информации, но часто они делаются без специальной подготовки, на основании эвристических предположений разработчиков.

Мы начинаем с того, что формулируем проблему, которую хотим решить: низкую конверсию, маленькое количество кликов по тому или иному элементу, отсутствие свайпов или доскроллов.

Затем мы выбираем конкретные действия, которые потенциально могут привести к желаемому результату. Это может быть добавление новых кнопок, смена расположения блоков на экране или, например, изменение организации меню с «бургера» слева на нижний сайд-бар, как это сделано в Instagram.


Пример того, как оценивается эффективность тестируемых изменений в приложении Optimizely.

То есть мы начинаем придумывать различные способы влияния на ключевой показатель. Так гипотеза приобретает законченный вид.

Обязательные составляющие гипотезы:

  1. формула «если — то»;
  2. глагол — он описывает действие, которое мы совершаем по отношению к выбранному элементу;
  3. описание ожидаемого результата.

«Если мы увеличим размер размер шрифта и перекрасим кнопку в зеленый, то конверсия вырастет на 15%».

Качество превращается в количество


С помощью А/В-тестов можно проводить два вида исследований: качественные и количественные.

Качественные исследования нацелены на работу с эмоциональным опытом человека, на то, чтобы узнать, нравится ли ему решение, которое мы применяем: удобно ли оно для восприятия, влияет на время взаимодействия или нет. Такие тесты ориентированы на то, чтобы разобраться, какие чувства вызывает у пользователя работа с приложением или сервисом.

Количественные исследования направлены на то, чтобы увеличить определенную цифру в целевом показателе: объем кликов по кнопке, подсказки для роста вероятности продажи и прочее. Это сухой подсчет переходов, трафика, продаж, движения по воронке.

Все показатели, которые нужно узнать, должны быть переведены в числовые метрики. Например вопрос «интересен ли пользователю контент» превращается в показатели количества времени, проведенного на экране, глубины скроллинга, клика по определенному ключевому элементу.

Важно! Соблюдайте правило: один экран — один эксперимент. Не проверяйте две гипотезы, связанные с элементами на одном экране одновременно. Тем более — две гипотезы, связанные с одним элементом, иначе вы не сможете разобраться с результатами (если в описании гипотезы значится «поменять два элемента местами» — это одно действие).

Типы А/В-тестов и глубина исследования


Мультивариативные тесты предполагают комбинирование нескольких вариантов. Например, у нас есть блок, который состоит из кнопки и призыва к действию. В таком случае можно сформировать все возможные виды этой кнопки с разными призывами. Но важно помнить, что такие тесты подходят только для крупных приложений с большим объемом трафика.

Сплит-тесты — это тестирование целых экранов, для того чтобы понять, какой из них вызывает больший отклик. Например, вы можете сравнивать разные варианты стартового экрана-туториала, чтобы понять, читают ли пользователи подготовленные вами советы или пропускают их, переходя сразу к функционалу приложения.

В рамках обычного поэлементного А/В-теста можно оценивать хэдеры, ссылки, расположение меню, качество призывов к действию, наличие и эффективность тех или иных функциональных или текстовых блоков и иллюстраций, взаимодействие пользователя с приложением в зависимости от устройства и попавшего к нему при тесте варианта адаптивной версии приложения.

Бывают тесты А/В/С/N, в рамках которых мы не обязательно выбираем только из двух вариантов. Они тоже подходят не всем сервисам: для их проведения нужен большой трафик, иначе тест просто не пройдет порог статистической достоверности. Чтобы мы могли быть уверены в том, что изменение ключевого показателя не было случайным, на экране должно побывать достаточно пользователей.

Для небольшого проекта, который при тестировании предлагает только варианты А и В, вполне может быть достаточно тысячи человек, совершивших действие. Для крупных их число может быть гораздо больше.

Обычные сроки эксперимента — от двух недель до полутора месяцев. Это нужно для того, чтобы удостовериться, что на его ход не повлияли никакие внешние факторы: например, рекламные кампании, погодные условия или что-то еще. (Погода здесь — это не только про настроение пользователей, но и про то, что, например, для приложений по доставке важно учитывать, идет сейчас дождь или нет — это влияет на конверсию).

Если же ваш продукт (или конкретный тестируемый элемент в нем) никак не зависит от погодных условий, моды или маркетинговой активности конкурентов, то выводы о целесообразности изменений можно сделать уже из действий первой тысячи пользователей. После сбора данных вы можете приступать к их интерпретации и внедрению изменений, которые оказались оправданными.

Инструменты А/В-тестирования


На сайтах эксперименты проводить куда проще благодаря гибкости их настройки из панелей управления но, к счастью, для мобайла существует несколько решений, которые зарекомендовали себя в качестве best practices.

Optimizely — один из самых популярных инструментов. Он обладает интуитивным и приятным интерфейсом, визуальным редактором и широкой интеграцией с классами, имеет встроенные возможности редактирования функционала элементов и навешивания прикреплением к ним новых событий. Однако сервис доступен далеко не всем разработчикам из-за высокой цены.



Five Second Test более релевантен для проведения юзабилити-исследований и изучения эффективности и понятности дизайна конкретных блоков и элементов.



Convert Experiments — самая доступная из платформ, стоимость подписки на сервис начинается от $9 за месяц. При этом в ней есть визуальный редактор, позволяющий тестировщику работать с элементами, не обладая навыками программиста. Здесь меньше доступных метрик и не такая продвинутая внутренняя аналитика, но для того, чтобы быстро настроить А/В-тест и запустить его, программа вполне подходит.



Apptimize обладает более расширенной системой внутренней аналитики и SDK, который достаточно просто освоить. В наличии есть и визуальный редактор.



Google Analytics Experiments ориентирован на мобильные приложения, созданные на базе web-технологий, и на гибридные приложения.



А/В-тесты и обновление приложений


Буквально несколько лет назад для запуска А/В-тестов не нужно было публиковать обновленную версию приложения: изменения вносились «на лету», путем внедрения в код определенных сниппетов. Однако из за того, что такой подход позволял обойти политику безопасности и ограничения Apple и Google, эта возможность была закрыта для разработчиков. Сегодня для проведения А/В-теста вам понадобится выкатить обновленную версию своего приложения.

Чему учиться и куда расти


Для проведения А/В-тестирования не обязательно быть крутым аналитиком — достаточно понимать показатели и делать на их основе правильные выводы.

Один из главных навыков специалиста, проводящего А/В-тесты, — способность интерпретировать количественные показатели в качественные и, наоборот, декомпозировать качественные гипотезы в цифры, доступные для анализа.

Начинающим специалистам стоит глубже познакомиться с правилами продуктовой аналитики, поскольку ее практики ближе к А/В-тестированию, чем то, что используется в web-аналитике и e-commerce.

Полезно изучить гибкие методологии, в частности line startup. Для тестировщика продукт становится его «внутренним стартапом». А значит, такие решения хорошо ему подойдут. Много полезной информации о проведении исследований можно получить, посещая бизнес-инкубаторы и их мероприятия; к тому же это сильный источник вдохновения. Там же можно вживую увидеть множество вариантов А/В-тестов — как автоматических, так и таких традиционных, как опросы и глубинные интервью.

Конечно же, необходимы и навыки работы с цифрами — от проведения социологических опросов до опыта в прикладной математике и информатике. Без этого у вас возникнут проблемы с обработкой результатов тестов.

Все эти навыки позволят со временем, если возникнет желание, двинуться в сторону работы в маркетинге в качестве стратега, UI/UX-аналитике или к позиции product owner’а и даже к созданию собственного проекта. Везде, где возникают сомнения, где непонятно, куда идти, где нужно разведать почву, прощупать аудиторию и ее настроения, — во всех этих областях знания, приобретенные в ходе А/В-тестирований, смогут найти применение.

Так что, научившись проходить путь от сбора предварительных данных к гипотезе, разработке вариантов решений и их проверке с последующим анализом — что, по сути, и скрывается за коротким термином «А/В-тестирование», — вы сможете открыть для себя куда больше перспектив, чем просто развитие в роли QA или аналитика.

Skillbox рекомендует тематические курсы:


Напоминаем: Для всех читателей Хабра — скидка 10 000 рублей при записи на любой курс Skillbox по промокоду «Хабр».

Впереди еще несколько материалов из нашей серии по мобильной разработке, и пришла пора спросить: а что вы хотели бы прочитать? Расскажите в комментах, какие темы, связанные с мобайлом, кажутся вам важными, но недостаточно раскрытыми, а мы постараемся удовлетворить ваш интерес.

Комментарии (3)


  1. aFanOfSwift
    19.07.2018 14:42

    Я наверное не там сейчас пишу. Но есть здесь хоть кто-то кто проходил курсы в скиллбокс? Просто интересно то насколько они эффективны.


    1. skillbox Автор
      19.07.2018 17:08

      Здесь можно почитать отзыв одного из наших студентов по курсу Веб-дизайн с 0 до Pro: goo.gl/7G6G8h

      Еще здесь можно посмотреть отзывы: skillbox.ru/ux-vipusk


  1. immaculate
    20.07.2018 04:46

    На Hacker News несколько раз читал мнение, что A/B приводит к постепенной деградации приложения: кратковременные выигрыши, которые в долгосрочном плане начинают раздражать пользователей.