Приветствую, Хабр! Моя работа связана с оценкой эффективности различных инициатив бизнеса, а также, в том числе, с прогнозированием спроса и трафика. Я не буду долго и нудно рассказывать, зачем ритейлу подобные прогнозы. Думаю, что тут всё достаточно очевидно. Лучше подробнее расскажу о нашем собственном подходе к моделированию медиа‑эффектов, о том, что у нас получилось, когда «Пятёрочка» и Х5 Tech совместно с агентством Havas Media (Группа АДВ) решили усовершенствовать систему прогноза посещаемости торговых точек, исходя из будущей рекламной активности, ожиданий относительно рекламы конкурентов и влияния прочих факторов.
К ним мы, например, относим погодные условия, сезонность, праздники, открытия новых магазинов и пр. Мы поставили перед собой задачу сделать эту аналитику максимально прозрачной и выверенной, а также минимизировать вклад человеческого фактора, опираясь преимущественно на цифры.
Максим Павлов
руководитель направления мультивариативного анализа в команде больших данных Х5 Tech
Неидеальная классика: почему мы решили улучшить стандартный аналитический подход
Вообще, для оценки медиа эффектов эконометрическое моделирование традиционно используется медиа агентствами уже на протяжении не просто нескольких лет, а, скорее, десятков лет. Для компании, которая выделяет значительные маркетинговые бюджеты, очень важно понимать, какую отдачу она может ожидать и как затраты на рекламные кампании трансформируются в реальный трафик в магазинах. То есть в количество людей, которые в него придут.
Помимо этого, существует ещё ряд факторов, которые также определяют, как поведёт себя трафик при той или иной их комбинации. И именно для того, чтобы сделать прогноз точнее и оценить реальную значимость используемых в классическом подходе факторов, мы решились на улучшение существующего подхода к эконометрическому моделированию трафика.
Сразу оговорюсь, что задачи создать что‑то кардинально новое перед нами не стояло. Новые решения потребовали бы огромного временного ресурса, в первую очередь с точки зрения проверки их эффективности и интерпретируемости. Инновационность разработанного нашим трио («Пятёрочка», X5 Tech и Havas Media) метода заключается в том, что в процессе аналитики вместо одной большой модели команда создавала одновременно много разных. Это позволило оценить реальный вклад каждого фактора. Но об этом подробнее дальше.
Кстати, эффективность рекламной активности, мы, как и прежде в классическом подходе, оценивали именно через привлечение трафика. На средний чек в данном случае ориентира не было, так как считается, что на поведение покупателя в магазине, и, соответственно, сумму, которую он там оставит, влияет много дополнительных факторов (система скидок, реклама внутри самих магазинов). Поэтому пытаться связывать средний чек с объёмами рекламы на внешних носителях было бы сложно и не очень корректно.
Как строится модель
Для репрезентативной выборки берётся некое количество магазинов на определённый регион, к примеру — тысяча. Данные разбиваются по дням или неделям, образуя дата‑сет, состоящий из десятков, а то и сотен тысяч записей.
Далее строится панельная модель, где каждая группа данных независима. Тут присутствует большое множество внешних факторов, например, курс доллара на протяжении определённого периода, популярность упоминания разных событий, редкие события и любые другие существенные экономические факторы. Также модель использует ряд факторов для предсказания трафика, например, площадь магазинов, их тип, сколько людей живёт в округе и пр.
В модель также добавляются данные компании, такие как, например, трафик в выбранный период в каждом магазине. При этом возможна различная степень детализации данных. К примеру, трафик можно разбить по категориям, или добавить данные о среднем чеке. Сюда же добавляется информация от медиа агентства — сколько было выпущено рекламы по дням, сколько она стоила, как она разбивалась по целевым аудиториям. Все эти факторы добавляют в модель и оценивают результат предсказания.
На все описанные выше факторы в дальнейшем можно наложить нелинейные трансформации в зависимости от задач. То есть создаются новые факторы на основе предыдущих. Один из вариантов — симуляция накопленного эффекта рекламы за счёт переноса части трафика на последующие дни. Также используется скейлинг (масштабирование) данных, чтобы факторы между собой были сравнимы, и их коэффициенты в модели тоже отражали вклад на одном уровне.
Далее с целью определения значимости каждого фактора проводятся статистические тесты с оценкой p‑value по факторам (простым языком: вероятность того, что данный фактор не влияет на зависимую переменную и его коэффициент случаен). Если p‑value менее 5%, это значит, что фактор значим. Результат может колебаться в зависимости от того, какие данные были использованы, и какие были применены трансформации. Результаты также проверяются тестами: на нормальность остатков, тест Фишера и пр.
Система с множеством моделей
То, что описано выше — этапы построения одной модели. К этому мы добавили цикл трансформаций для каждого из признаков и по такой же логике построили множество моделей, а затем собрали все p‑value, которые получились с этими трансформациями. Также команда испробовала различные вариации параметров — к примеру, убирали определённые магазины, регионы или временные периоды. Итого получилось множество моделей, отличающихся количеством данных.
Идея такова: модель меняется, адаптируется, но если при этом p‑value стабильно остаётся на одном уровне, то признак значимый. Иными словами, вклад каждого из признаков оценивался не как стабильный коэффициент, а как распределение этих коэффициентов и p‑value. И если распределение похоже на нормальное, и оно концентрируется вокруг некоторых значений, то, скорее всего, этот признак стабильно даёт какой‑то вклад, а значит — его можно использовать.
Аналогичное распределение строится и с получившимися коэффициентами.
На примере видно, что в зависимости от изменений в данных коэффициенты также могут существенно меняться (и даже менять свой знак). При этом каждая модель индивидуально «хорошая», т. е. проходит проверки на значимость и ошибки. Именно такие картинки и заставляют задуматься о качестве предыдущих подходов.
Как проходил эксперимент
Изначально была построена модель с использованием таких факторов, как данные по наружной рекламе X5 Group и конкурентов, данные по радио‑рекламе, ТВ‑рейтингам, данные по затратам на интернет‑рекламу, а также такие макропеременные, как температура воздуха и осадки, индекс мобильности Google и пр. После этого были получены предсказания, их проверка и была экспериментом.
В ходе проекта в одном регионе «Пятёрочка» даже выключала региональную ТВ‑рекламу. В другом городе для проведения тестирования торговая сеть убирала наружную рекламу, а ещё в двух городах увеличила вложения в наружную и региональную ТВ‑рекламу.
Что в результате
В целом в результате смены подхода модель повысила свою регуляризованность. Некоторые признаки отсеялись и перестали быть значимыми, хотя в изначальной модели значилось, что они давали вклад. В итоге признаков стало поменьше, а у тех, что вносили значимый вклад, коэффициенты тоже чуть‑чуть снизились. Например, традиционно считалось, что вклад медиарекламы в трафик магазинов составляет порядка 10%, где‑то поменьше, где‑то побольше.
Из интересных открытий исследования — подтверждение эффективности телевидения. Есть расхожее мнение, что его эффективность снижается. На деле же практически во всех построенных моделях ТВ‑реклама оказалась значимой и показала достаточно высокую эффективность. Другое интересное открытие — удалось оценить влияние восприятия «Пятёрочки» как магазина с низкими ценами на уровень траффика.
Что касается рекламной активности конкурентов — было выявлено, что влияние от такой рекламы трудно зафиксировать. Причина в том, что чаще всего данная реклама идёт параллельно с коммуникацией самого бренда. Так, после проверочных этапов было отмечено, что наиболее значимый негативный вклад наблюдается только у бренда нашего ключевого конкурента.
Также в модель добавлялись внешние факторы, такие как COVID, влажность, осадки. Но тут важно понимать, насколько эти факторы возможно прогнозировать. Ведь цель создания моделей — не объяснить, что было в прошлом, а составить прогноз на будущее. Таким образом, подобные внешние факторы, скорее, помогают оценить дисперсию прогноза и долю неопределённости в будущем.
Результаты исследования, проведённого при помощи созданной модели не идеальны, но вызывают больше доверия, чем ранее используемый метод, поскольку позволяют также посмотреть стабильность оценки факторов.
Традиционно считается, что есть оптимальная точка насыщения, после которой эффективность вклада снижается и падает до нуля. То есть при увеличении затрат эффективность не вырастет. Сейчас у всех крупных ретейлеров на рынке объёмы инвестиций в рекламу находятся за точкой насыщения, и в целом это осознанная стратегия.
Отчасти это связано с тем, что KPI отдела маркетинга напрямую зависят от того, сколько денег будет потрачено на рекламу. Отчасти с тем, что компания не может знать о будущей активности конкурентов, поэтому она всегда рассчитывает свои рекламные инвестиции с определённым запасом.
Преимуществом новой эконометрической модели является то, что, достигнув определённой точности прогнозирования, можно будет предсказать, что снижение бюджетов на рекламу до такого‑то уровня с большой долей вероятности не приведёт к негативными последствиям. Но пока для этого требуется дальнейшая доработка системы и новые тесты.
Результаты модели также привели к оценкам ROI, показатели которого стабильно превышали 10. Несмотря на то, что вывод реализованной модели говорит о высокой эффективности, при увеличении затрат ROI, как правило, начинает снижение из‑за ограничения ёмкости рынка и кривых отклика от рекламы.
На данный момент можно говорить, что нам удалось довести погрешность системы до чуть более 2%, а не 10%, как было раньше. То есть уже сейчас система способна давать полезный результат, который может описывать сценарии будущего.
Что в планах
Проведённое исследование подсветило проблемы с конкретными факторами, и это указало нам направления для дальнейшего анализа. К примеру, достаточно сложно исключить долговременный эффект рекламы, но можно в местах, где региональной рекламы какое‑то время не было, провести исследования и попытаться оценить изменения. В целом, есть планы по проведению дальнейших «более умных» тестов.
Саму аналитическую модель тоже возможно улучшить: доработать моделирование сезонности, снизить созависимость, попробовать различные подходы к обработке пропущенных значений.