В этом материале мы опишем систему для заблаговременного предотвращения оттока рекламодателей, основанную на машинном обучении (ML, Machine Learning). Прототип системы создан на основе данных организаций малого и среднего бизнеса (Small & Medium Business, SMB), с которыми работает Pinterest. Результаты изначального эксперимента говорят о том, что мы, с высокой вероятностью, можем обнаруживать возможный уход рекламодателей. Это, в свою очередь, способно помочь нашим торговым партнёрам. Система, подобная нашей, может достичь лучших результатов, чем обычный подход, когда пытаются вернуть уже ушедшего клиента.

Введение

Как и многие другие компании, которые зарабатывают на рекламе, Pinterest прилагает сознательные усилия к тому, чтобы минимизировать уход рекламодателей с нашей платформы. Сложилось так, что эту проблему решают уже после её возникновения. В частности — менеджер по продажам связывается с рекламодателем только после того, как он ушёл. Этот подход таит в себе немалые проблемы: очень сложно «восстановить» клиента после того, как он покинул платформу. Для решения этой проблемы через заблаговременное предотвращение оттока рекламодателей мы представили соответствующую ML‑систему. А именно — мы разработали модель, которая способна прогнозировать вероятность ухода рекламодателя в ближайшем будущем. Прогнозы модели мы передаём менеджерам по продажам, которые пытаются предотвратить уход клиентов, находящихся в группе риска.

Здесь мы затронем следующие вопросы:

  • Проектирование и реализация модели прогнозирования оттока клиентов.

  • Эксперименты в североамериканском SMB‑сегменте.

Модель прогнозирования оттока клиентов

Наша команда построила ML‑модель для прогнозирования вероятности оттока рекламодателей на ближайшие 14 дней. Мы использовали пакет Shapely Additive Explanation (SHAP) для приближённой оценки вклада признаков модели в прогноз. Мы предоставили менеджерам по продажам прогнозные данные модели и набор основных признаков, влияющих на прогноз. Менеджеры используют эту информацию, распределяя свои усилия так, чтобы уделить основное внимание тем рекламодателям, с которыми связан высокий риск ухода с платформы. В следующих разделах мы поговорим об этом подробнее.

Архитектура модели

Исходная версия нашей модели основана на архитектуре градиентного бустинга над решающими деревьями (Gradient Boosting Decision Tree, GBDT). Работа модели базируется на применении «мгновенного снимка» или «снепшота» данных, то есть — мы используем всю информацию, доступную до определённого момента времени, и прогнозируем вероятность ухода рекламодателя относительно этого момента.

Мы выбрали GBDT по следующим причинам:

  • GBDT — это широко используемая модель, отличающаяся хорошей эффективностью при работе с табличными данными малого и среднего размеров (это относится к нашим данным).

  • SHAP хорошо работает с GBDT, оценивая вклад каждого из признаков в прогноз.

  • Применяя GBDT легко получить сведения о важности признаков модели.

  • GBDT может, кроме того, играть роль хорошей базовой модели при оценке будущих улучшений модели. Например — это может быть переход к последовательным моделям.

Целевая переменная

После тщательного анализа ситуации и консультаций по поводу того, что именно нужно компании, мы решили использовать определение целевой переменной, приведённое на следующем рисунке.

7/01 to 07/07 is 7 day spend >0. 07/07 to 07/21 is 14 days. 07/21 to 07/27 is 7 day spend >0 ? If yes, then Label 0: active. If no, then Label 1: churn.
Определение целевой переменной

В нашем случае мы различаем активных и ушедших рекламодателей так:

  • Активный рекламодатель: есть затраты в последние 7 дней.

  • Ушедший рекламодатель: нет затрат в последние 7 дней.

Мы прогнозируем вероятность оттока лишь для активных рекламодателей. В частности — прогнозируем их возможный уход в следующие 14 дней.

Признаки

В модели используется более 200 признаков. Эти признаки агрегируют по различным статистическим показателям. Среди них, например — минимальное, среднее, максимальное значение. Делается это по ряду временных интервалов. Например — данные по неделе или месяцу, которые предшествуют моменту формирования прогноза. Мы, кроме того, включаем данные об изменении признаков в течение недели и в течение месяца. Это позволяет нам оснастить модель сведениями об актуальных трендах изменения активности рекламодателей. Признаки можно сгруппировать по следующим категориям:

  • Эффективность: показы (просмотры, длительность которых превышает 1 секунду), клики, конверсии, ценность конверсии, затраты, стоимость 1000 показов, стоимость клика, кликабельность.

  • Цель: коэффициент достижения цели, расстояние до цели.

  • Бюджет: бюджет и его освоение.

  • Активность менеджеров рекламных объявлений: показатели по созданию, редактированию, архивированию объявлений, сведения о сообщениях от пользователей.

  • Свойства: канал продаж, страна, сфера деятельности, срок владения, размер, история расходов.

  • Настройки рекламной кампании: таргетинг, стратегия назначения ставок, тип цели, дата окончания рекламной кампании.

Оценка влияния признаков на прогноз модели

Для оценки того, какой вклад признаки вносят прогноз модели, мы используем библиотеку SHAP. Результат применения сигмоидной функции к сумме вкладов признаков, полученных из SHAP, равен вероятности ухода клиента, выдаваемой моделью. Получив из SHAP данные о вкладе разных признаков в результат, мы можем узнать об основных причинах высокой вероятности ухода клиента. Затем мы можем указать команде продаж на эти причины, а команда, в свою очередь, может принять меры для предотвращения оттока рекламодателей.

Использование модели

Мы пользуемся оффлайновой версией обученной модели для ежедневного получения сведений о вероятности ухода активных рекламодателей.

Категории риска ухода рекламодателя

Для того чтобы помочь команде продаж лучше понять смысл выходных данных модели, мы классифицируем учётные записи клиентов по трём категориям. Классификация основана на вероятности их ухода. Это — категории высокого, среднего и низкого риска. В категорию высокого риска попадают клиенты, которые, с высокой долей вероятности, могут уйти. Средний риск назначается клиентам, вероятность ухода которых ниже. В категорию низкого риска попадают «здоровые» учётные записи, принадлежащие клиентам, которые вряд ли уйдут в следующие 14 дней. Мы подбираем пороговые значения, разделяющие категории риска, основываясь на нуждах команды продаж, касающихся точности и полноты отклика модели. Подробности об этом вы найдёте в разделе, посвящённом результатам эксперимента.

Эксперименты с североамериканскими SMB-рекламодателями

Наш первый эксперимент был нацелен на учётные записи североамериканских SMB‑клиентов. Ими управляет подразделение менеджеров по работе с клиентами (Sales Account Managers, AMs). Мы, в ходе эксперимента, случайным образом разделили рекламодателей на основную и контрольную группы. Команда продаж работала с клиентами контрольной группы так же, как раньше. А при работе с основной группой прилагались усилия по предотвращению ухода клиентов, основанные на следующей информации:

  • Категория риска ухода клиента. Высокий, средний, низкий уровень риска.

  • Причина ухода. Мы, для удобства понимания данных, разделили подробные сведения о причинах оттока клиентов на категории. Эти категории были определены достаточно размыто. Команда продаж проводила исследования клиентов, основываясь на направлениях, задаваемых этими категориями.

14 Day Churn Prediction Model — Overall Churn Risk High. Churn Category is Performance and Campaign Setup / Best Practices. Absolute Change in 14d Churn Risk % D/D is -11% down.
Виджет со сведениями о прогнозировании оттока клиентов

Метрики успешности эксперимента

Наш эксперимент оценивался на основании следующих критериев:

  • Предсказательная сила модели. То есть — то, насколько хорошо модель способна идентифицировать рекламодателей, которые, вероятнее всего, уйдут.

  • Эффективность применения прогноза оттока клиентов в деятельности, направленной на снижение числа ушедших клиентов.

Результаты эксперимента

Предсказательная сила модели

Для определения предсказательной силы модели мы сравнили её реальные результаты на контрольной группе (на тех менеджерах по работе с клиентами, у которых не было доступа к прогнозам по оттоку клиентов) с тем, что мы наблюдали в ходе разработки (то есть — с нашими вневыборочными оценками). В частности — мы оценивали эффективность работы модели, основываясь на следующих характеристиках:

  1. Качество модели. Мы сравнили метрики AUC‑ROC и AUC‑PR, наблюдаемые на контрольной группе и в процессе разработки.

  2. Сегментация результатов по группам риска. Проконсультировавшись с менеджерами по продажам, мы задали такие пороговые значения для групп риска (высокого, среднего и низкого), которые позволили выйти на следующие показатели:

    1. Полнота (доля истинно положительных результатов) в группах высокого и среднего риска должна превышать 70%.

    2. Точность в группе высокого риска должна находиться на уровне 70%.

Это позволило менеджерам по продажам «отлавливать» большинство клиентов с высоким риском ухода, и, кроме того, правильно назначать приоритеты при работе с ними, то есть — сначала браться за клиентов, находящихся в группе высокого риска (самая высокая точность).

В плане качества модели наши результаты указывают на то, что метрика AUC‑ROC в контрольной группе менеджеров находится в пределах 1% AUC‑ROC, полученного в ходе разработки. Для AUC‑PR это значение составило 3%. Это указывает на то, что предсказательная сила модели в определении учётных записей с высоким риском ухода сравнима с той, что мы наблюдали в ходе разработки.

Если говорить о сегментации клиентов по риску ухода, то точность и полнота нашей модели, а так же та часть клиентов, которой был назначен высокий или средний риск ухода, стабильно находились в пределах 2–3% от оценок, сделанных в ходе разработки. Это указывает на то, что сегментация учётных записей по группам риска на основе вероятности ухода клиентов соответствовала ожиданиям команды продаж и результатам, полученным в ходе разработки.

Эффективность применения прогноза в деле снижения оттока рекламодателей

Среди учётных записей, которыми занимались менеджеры из основной группы, обнаружилось, относительно контрольной группы, 24% уменьшение уровня оттока клиентов. Один менеджер, занимающийся группой клиентов высокого уровня, в среднем, отвечает за 50–70 учётных записей. 24% — это статистически значимый показатель. Это позволяет сделать вывод о снижении вероятности ухода клиентов, сведения о риске ухода которых были доведены до менеджера.

Итоги и планы

В этом материале мы рассказали о проектировании и реализации ML‑системы, позволяющей заблаговременно предотвращать отток рекламодателей в Pinterest. Мы, кроме того, активно исследуем архитектуру последовательных моделей. Среди них — сети долгой краткосрочной памяти и трансформеры. Их применение может позволить лучше учитывать особенности поведения рекламодателей и минимизировать необходимость в ручной обработке признаков. Например — в агрегировании данных по месяцам и по неделям, которое используется в нашей текущей модели.

О, а приходите к нам работать? ? ?

Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.

Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.

Присоединяйтесь к нашей команде

Комментарии (1)


  1. achekalin
    11.09.2024 09:52

    Почему бизнес предпочитает создавать менее выгодные условия для всех и улучшать условия только для тех, кто готов уйти? Это можно наблюдать во многих сферах, начиная от сотовых операторов, которые предлагают выгодные тарифы только после подачи заявления о смене номера, и заканчивая виртуальными площадками, о которых говорится в этом посте.

    Те понятно, что причина в деньгах, но, как в анекдоте, "а поцеловать?!"