Привет! Меня зовут Дмитрий Кротов, я старший аналитик в команде Авито Авто, занимаюсь развитием стрима маркетинга, в том числе CRM-коммуникаций. Ключевая задача этого стрима — делать рассылки более ценными для пользователей и повышать их эффективность для бизнеса. В статье рассказываю, как мы создали сегментацию покупателей автомобилей с пробегом с помощью микса методологий, оценили её эффективность и применили на практике. 

Зачем мы решили создать новую модель для сегментации

На старте у нас был ряд важных вводных: 

Рост аудитории и продукта. Авито Авто — это крупная площадка с миллионами ежедневных посетителей, имеющих абсолютно разные потребности: одни активно выбирают среди предложений и готовы купить авто уже сейчас, другие просто анализируют уровень цен, а кто-то заходит по ссылке друга посмотреть конкретное объявление. Этот подводит нас к необходимости сегментации.

Персонализация CRM-коммуникаций. Разные мотивы поведения требуют разных по содержанию коммуникаций. Сегментация может помочь точнее настраивать кампании под потребности пользователей и, как следствие, снижать количество отписок от рассылок.

Адаптивность методологии. Авито стремительно развивается и регулярно выходит в новые категории и сегменты бизнеса. В связи с этим мы хотим заложить возможность эффективной адаптации методологии под другие категории объявлений.

RFM и обзор других методологий

Прежде чем погрузиться в разработку своей методологии, мы изучили практики, которые используют в Авито и на рынке в целом.

Самым подходящим решением, которое было бы оптимальным по затрачиваемому ресурсу и приносимой ценности, была RFM-методология.

Классическая RFM-модель
Классическая RFM-модель

RFM включает в себя три параметра:

  • Recency (давность): когда пользователь в последний раз совершал целевое действие; 

  • Frequency (частота): количество целевых действий, совершённых за определённый период;

  • Monetary (деньги): средства, потраченные пользователем в продукте за период.

Интеграция этой модели без изменений для наших целей была нерелевантна, так как денежный показатель нам не подходит. Наша бизнес-модель — классифайд, источник выручки здесь не покупатели авто, а продавцы, которые оплачивают размещение объявлений. Поэтому мы стали изучать другие методологии.

CLV-анализ и скоринговая модель. Эти методологии могут помочь оценить ценность и активность пользователя для нас, но они не отвечают на вопрос «горячести» пользователя именно сейчас. 

Неклассические RFM-модели:

Recency-Frequency-Intensity (RFI). В этой методике к RFM добавляется показатель интенсивности (Intensity). Этот показатель отражает уровень вовлечённости клиента в продукт или услугу. С помощью вовлеченности можно оценить, как часто клиент использует продукт или услугу и насколько активен при этом.

Recency-Engagement-Value (REV). Здесь дополнительно к RFM учитывается уровень вовлечённости (engagement). Этот параметр анализирует вовлечённость клиента с помощью метрик: время пребывания на сайте, частота взаимодействия с контентом, участие в программе лояльности и других.

Recency-Frequency-Monetary-Channel (RFMC). Тут помимо RFM учитываются данные о каналах, через которые происходят взаимодействия с клиентом. Это позволяет более точно анализировать привлекательность каналов и ресурсов.

RFM без оценки монетаризации. В этой методике анализируются только recency и frequency.

Recency-Activity-Quantity (RAQ). Здесь оценивается не только частота покупок, но и количество единиц продукции или общий объём услуг, потреблённых клиентом за определённый период.

По итогам исследования мы решили, что ограничивать себя имеющимися методологиями — не самый эффективный путь. И стали создавать свою сегментацию с учётом особенностей продукта.

RFFLP или микс методологий

Слева — классическая RFM-модель, справа — наша адаптация
Слева — классическая RFM-модель, справа — наша адаптация

В нашем подходе соединили всё, что подходило нам из нескольких методик. Расскажу об этом подробнее. 

Параметр recency мы оставили без изменений — с помощью него определяем давность посещения категории с подержанными автомобилями.

На основе расчётов давности пользовательской активности (количество дней с последней активности в категории по параметру recency) и продуктового подхода к выделению оттока, мы определили четыре сегмента:

  • текущие юзеры;

  • потенциальный отток;

  • уходящие в отток;

  • потерянные.

Пример гистограммы распределения пользователей по параметру recency
Пример гистограммы распределения пользователей по параметру recency

Параметр frequency. Вместо классического расчёта частотности одного действия, например, совершения сделки, мы стали рассчитывать score пользовательской активности — взвешенную активность.

Решили перейти к формату score, потому что не можем адекватно оценить активность человека только по одному типу пользовательского события. В связи с этим выбрали ряд событий, которые отражают активность пользователя как в начале воронки, так и в конце. В итоге получили следующую формулу:

Формула для оценки активности пользователей
Формула для оценки активности пользователей

Учитывать каждое событие можно с экспертными или расчётными весами. Мы пошли вторым путём. Вес каждого типа активности пользователя оценивали через его долю в общей величине событий:

Формула расчёта весов score
Формула расчёта весов score

Рассмотрим методологию на конкретном примере:

Пример расчёта параметра frequency
Пример расчёта параметра frequency

При расчёте весов важно также обратить внимание на следующие аспекты:

  • Рассматривайте как базовые события в воронке, так и максимально близкие к целевому. 

  • Подбирайте метрики, которые будут лучше всего отражать специфику продукта.

  • Веса событий должны быть не фиксированными, их стоит автоматически пересчитывать. Это особенно важно, если продукт находится в самом начале пути и претерпевает множество изменений.

  • Для оценки активности и «горячести» пользователей нам уже достаточно информации после расчёта параметров recency и frequency.

Но сам по себе параметр recency не даёт ответ на вопрос о степени активности пользователя в последнее время. Поэтому вы можете столкнуться со следующими кейсами:

Сравнение активности двух разных пользователей на Авито без учёта параметра frequency last period
Сравнение активности двух разных пользователей на Авито без учёта параметра frequency last period

Frequency считается на большом окне и даёт возможность оценить длительную историю активности пользователя. Frequency last period учитывает активность на маленьком окне и позволяет понять, насколько пользователь активен прямо сейчас. 

Например, у user 1 и user 2 одинаковые показатели frequency и recency, но при этом user 1 находится в активной фазе пользования продуктом, и за последние три дня он накопил треть своего frequency. А user 2 — пример вернувшегося пользователя, который много взаимодействовал с продуктом раньше, но за последние три дня сделал лишь два просмотра и, следовательно, не находится в активной фазе поиска авто. 

Без расчёта frequency last period оба этих пользователя были бы классифицированы одинаково.

Параметр frequency last period считается по формуле:

Формула расчёта frequency last period
Формула расчёта frequency last period

Понимание параметра last period зависит от подхода к оценке «свежести» активности и типа продукта. Например, оно будет сильно отличаться от продуктового ретейла, где пользователи возвращаются еженедельно, и сервиса бронирования отелей, куда юзеры обычно приходят 1–2 раза в год. 

С помощью расчёта доли активности за крайний период мы можем выделить ещё четыре когорты пользователей:

Новички: 100% активности накоплено в этот период.

Старички: 0% активности накоплено в этот период.

Скорее новички: >50% активности накоплено в этот период, но не равно 100%.

Скорее старички: <50% активности накоплено в этот период, но не равно 0%.

Пример гистограммы распределения пользователей по параметру frequency last period
Пример гистограммы распределения пользователей по параметру frequency last period

Использование frequency last period даёт возможность точнее определять, когда пользователи накопили активность по давности посещения — recency и степени активности — frequency: 

Сверху — таблица с пользователями, которых мы сегментировали без уточнения параметра frequency last period, снизу — добавили этот параметр 
Сверху — таблица с пользователями, которых мы сегментировали без уточнения параметра frequency last period, снизу — добавили этот параметр 

При разработке сегментации учитывайте также частоту обновления и период расчёта. Они зависят от скорости и частоты взаимодействия с пользователем.

Оценка качества модели

Прежде чем тестировать модель на боевых задачах, мы сравнили три методологии: 

  • нашу RFFLP-сегментацию;

  • ML-модель из категории подержанных авто, которая может детектировать только «горячих» покупателей и с не удовлетворяющим нас уровнем точности;

  • проверенную ML-модель, которую мы активно используем в другой категории Авито.

Хотели оценить, насколько точно наша модель определяет состояния пользователей, и сравнить эту оценку с реальной картиной.

Методология оценки точности сегментации
Методология оценки точности сегментации

Оценку провели двумя подходами:

Собрали метрики в день скоринга — краткосрочное определение «горячих» пользователей. Покрытие целевой когорты юзеров RF-моделью на 9 п.п. выше проб с ML-моделью в Авто и почти совпадает с точностью ML-моделей в других категориях.

Собирали метрики в течение 30 дней после скоринга — долгосрочное определение «холодных» юзеров. Покрытие целевой когорты юзеров RFFLP-моделью на 11 п.п. выше проб с ML в Авто и совпадает с точностью ML-моделей в других категориях.

Эффективность модели в CRM-коммуникациях

Сегментация используется для корректировки коммуникаций по параметрам:

  • степень активности;

  • степень новизны активности;

  • степень оттока пользователя.

Оценка эффективности сегментации в коммуникациях проводилась с помощью A/B-тестирования и глобального контроля.

Подход к A/B-тестированию был следующим: отправляли два разных типа коммуникаций — персонализированную коммуникацию под сегмент и стандартную коммуникацию на безликую аудиторию.

На глобальном контроле мы отслеживали изменения аплифта метрик у тех, кто получает коммуникации против тех, кто не получает. 

Результаты, которые мы получили после оценки

Персонализированные коммуникации, основанные на сегментации:

  • показывают более высокий open rate — в среднем на 25%;

  • приводят в 1,5 раза больше целевых покупателей;

  • показывают аплифт в просмотрах в среднем на 27% выше;

  • имеют аплифт в целевых кликах в среднем на 24% выше;

  • реже триггерят пользователей к отпискам от пуш-уведомлений.

Сегментация позволила детектировать переход пользователей в другие категории. Это открыло возможность для создания кросс-рассылок.

Итог: как мы разработали новую модель сегментации для покупателей в категории автомобилей с пробегом

  • изучили практики и методологии сегментации внутри компании и вне;

  • адаптировали RFM-методологию — взяли recency, переработали frequency и отказались от monetary;

  • разработали новый параметр frequency last period — долю частоты, накопленную за крайний период. Теперь можем точнее понимать, насколько «свежая» активность у пользователя;

  • сравнили результаты с нашими действующими ML-моделями. Новый метод показал высокий уровень точности;

  • внедрили методологию в CRM-коммуникации, что позволило сделать рассылки более персонализированными и полезными.

Спасибо за уделенное статье время! С радостью отвечу на вопросы в комментариях. Там же жду ваши истории про решение аналогичных задач с рассылками, какие инструменты вы применяли и каких результатов добились?

Подписывайтесь на канал AvitoTech в Telegram, там мы рассказываем больше о профессиональном опыте наших инженеров, проектах и работе в Авито, а также анонсируем митапы и статьи.

Комментарии (0)