Всем привет!
Меня зовут Наталья Ким, я продакт-менеджер продукта A/B тестирования в Big Data «Ленты». Наша компания — это ведущий многоформатный ретейлер в области продуктового и FMCG-секторов, где каждый бизнес-юнит активно генерирует и реализует разнообразные изменения, направленные на оптимизацию показателей. Для оперативной проверки этих гипотез крайне важно использовать современные инструменты. Расскажу подробнее про направление A/B тестирования в «Ленте», как об инструменте проверки гипотез.
A/B тестирование для бизнеса в оффлайне
Когда мы говорим об A/B тестировании, часто представляем себе A/B в цифровой среде, где легко собирать данные и мгновенно видеть результаты.
Цели проведения A/B тестирования:
Избежать тиражирования неэффективных изменений;
Проверить эффективность с минимальным затраченным операционным ресурсом в магазинах;
Обосновать изменения математическими инструментами, а не волей случая.
Но как быть с офлайн-бизнесами — розничными магазинами, ресторанами, банками и другими компаниями, у которых основной поток клиентов находится в реальном мире? Можно ли проверять гипотезы в офлайн-среде так же эффективно, как в интернете? И главное, как это делать, не затрачивая огромные ресурсы на масштабирование? Давайте обсудим эти вопросы и разберёмся в А/В тестах на офлайн-метриках.
Особенности офлайн A/B тестирования
Офлайн-эксперименты сопряжены с множеством трудностей, отличных от онлайн-среды:
1. Ограниченность данных: данные часто агрегированы по магазинам, и многие метрики связаны с непосредственными покупками, а не поведением пользователей.
2. Влияние внешних факторов: погода, праздники, региональные особенности могут значительно повлиять на результаты экспериментов.
3. Сложность сегментации: в офлайне трудно создавать равные группы для тестирования, так как мы работаем с магазинами, которых не так много, а поведение каждого может сильно отличаться от других в группе.
4. Специфика офлайн-бизнеса: как правило, методология A/B в онлайне у всех плюс-минус одна и та же, но в офлайне есть много особенностей, таких как формат точек, в которых проводятся эксперименты, поведение клиентов бизнеса в каждом формате и многое другое.
5. Малое количество магазинов: в отличие от эксперимента на сайте, где данные о действиях пользователей представлены в достаточном объеме, на магазинах мы часто ограничены 10 пилотными точками, которые могут сильно отличаться от подобранных контролей. Чтобы уменьшить разницу в группах, мы применяем подход синтетического контроля.
Несмотря на эти сложности, A/B тестирование в офлайне имеет место и при правильном подходе способно приносить значимые результаты.
Подходы к офлайн A/B тестированию в «Ленте»
Давайте посмотрим на нашу специфику: мы управляем 263 гипермаркетами и 323 супермаркетами, 2 701 магазинами, которые расположены в 650 населённых пунктов по всей России. Сам процесс A/B тестирования у нас выглядит так:
1. Выбор подходящих магазинов для тестирования
Одним из ключевых шагов является выбор ограниченного числа локаций, где гипотеза может быть протестирована. Главное — убедиться, что выбранные точки являются репрезентативными и их показатели могут быть масштабированы на остальной бизнес.
Пример:
Подберем из доступных магазинов те, которые ведут себя наиболее похоже по выбранной целевой метрике. При необходимости ограничим регионы или города проведения пилота.
2. Подбор контрольной группы
Как и в онлайн A/B тестировании, важно выделить контрольную группу, на которую изменения не будут распространяться. Контрольная и пилотная группы должны быть как можно более схожи, чтобы минимизировать внешние факторы.
Пример:
Протестируем целесообразность новой выкладки товаров, выделив несколько магазинов с новым подходом (пилотная группа) и сравним их с теми, где все осталось по-старому (контрольная группа).
3. Фиксация ключевых метрик
До начала теста необходимо определить, какие метрики будут использоваться для оценки результатов. Важно выбрать такие показатели, которые можно отслеживать и анализировать в офлайн-среде. Это могут быть:
средний чек;
количество чеков;
маржа;
товарооборот;
количество чеков;
количество уникальных покупателей;
число позиций в чеке.
Пример:
Выберем целевую метрику. Пусть это будет средний чек, а вспомогательная – это количество покупателей. В результате по среднему чеку мы будем судить об успешности пилота, а по количеству уникальных покупателей — о правильности исполнения пилота.
4. Сроки проведения теста
В офлайн-среде важно правильно определить продолжительность теста. В отличие от онлайн A/B тестирования, где результаты можно получить довольно быстро, в офлайне нужно учитывать поведение клиентов.
Мы рекомендуем отталкиваться от ваших вводных данных, так как периоды сильно коррелируют с количеством данных, которые можно получить.
Если у вас тысячи магазинов по городу и эксперимент подразумевает активное вовлечение покупателей, то вам значительно меньше времени потребуется для сбора необходимых данных и детерминирования эффектов.
Пример:
Учитывая поведение покупателей в магазинах, оценивать результаты по итогу нескольких недель часто бывает недостаточно. Для повышения уверенности в полученных эффектах нужно принимать во внимание не только длительность пилота, но также период адаптации (около 2-3 недель, в зависимости от сути изменений) – это время, за которое клиенты и продавцы привыкнут к изменениям. Ввиду этих параметров проведение пилота может проходить на протяжении нескольких месяцев.
Процесс A/B тестирования в «Ленте»
Команда A/B занимается проведением, дизайном и оценкой пилота перед принятием решения о тиражировании: внедрение изменений на всю сеть.
Важным шагом для начала работы над пилотом и разработкой дизайна эксперимента является сбор всех вводных и учет всех бизнесовых ограничений. Данный шаг включает в себя учет параллельных изменений, которые реализуются различными службами внутри конкретных магазинов.
Например, коммерческая служба может проверять несколько гипотез, связанных с выкладкой одной группы товаров, и в данном случае необходимо исключить список магазинов, в которых уже реализованы изменения.
После завершения эксперимента мы оцениваем пилот: замеряем эффекты, ищем проблемы, если они есть, предоставляем результаты и наше мнение по ним. Мы постоянно работаем над отчетами и стараемся делать их наиболее понятными для сотрудников, не знакомых с техническими аспектами. Для нас важно получать обратную связь и улучшать информацию для удобного понимания результатов и оперативного принятия решения бизнесом.
Основными нашими заказчиками являются бизнес и инвестиционный контроллинг, который принимает решение о выделении инвестиций на тот или иной проект.
Пример отчета, который мы передаем - выше: как видите, в нем есть все данные для понимания поведения покупателей после изменения. Важные параметры, на которые заказчики A/B тестирования обращают внимание – это статистическая значимость, размер эффекта и MDE (минимальный детерминированный эффект).
Данные метрики могут быть актуальны как для всего магазина, так и определенной категории, но об этом расскажу в следующей статье.
Заключение
A/B тестирование в офлайне — это реальная возможность улучшить бизнес-процессы, проверить гипотезы и найти оптимальные решения для максимизации ключевых показателей.
Важно помнить, что такие эксперименты требуют тщательной подготовки, правильного выбора точек для тестирования, а также учета множества внешних факторов.
Проверка гипотез без масштабирования на ранних этапах помогает минимизировать риски и эффективно распределять ресурсы, делая бизнес более гибким и устойчивым к изменениям.
Ключевое правило: начинайте с малого, тестируйте локально, анализируйте результаты и только потом масштабируйте удачные решения на всю компанию.
P.s. Спасибо моему соавтору Гридасову Егору.
P.p.s. Ну и напоследок, если вы дочитали до конца, маленький мем.
Расскажите, что думаете про проведения A/B тестирования в офлайн-бизнесе. Был ли у вас опыт проведения экспериментов в офлайне путем A/B тестирования?
Ananiev_Genrih
Наталья, прочитал до конца. Внимательно кстати ибо заголовок тригернул и тема очень актуальная. А о чем была статья? Если это вводная для целой серии - то ок, ждём матчасть в суровых оффлайн реалиях (подходы к стратификации, сэмплингу, стат.методы для малых выборок и т.д.). Если статья просто о том как в оффлайне все иначе, то зачем статья тогда в принципе? (И так очевидно что все иначе и свои особенности)
natalya_kim01 Автор
Спасибо за комментарий, и что дочитали до конца :)
Все верно, это вводная часть для погружения в наш внутренний процесс и специфику. Все технические детали раскроем в следующих статьях.