В данном тексте я хочу порассуждать и поделиться своими мыслями о проблеме исследования профиля клиентов. Данная тема является для меня новой, поэтому хотелось бы обсудить её с сообществом. Буду рад обсуждению в комментариях о плюсах и минусах предлагаемого мной подхода. В своем подходе я пытаюсь сделать поправку оценки характеристики представителей популяции по некоторой подвыборке. Представители популяции имеют разную вероятность попасть в подвыборку, что создает смещение выбора. Кроме смещения выбора, присутствует смещения ответа, так как попадание в выборку не гарантирует получения информации о представителе популяции. Данный текст является адаптацией моей публикации по теме на medium [1].

Проблема

К сожалению, бизнес часто плохо знает свою аудиторию. Что это за люди, где живут, чем занимаются, какие у них есть предпочтения, насколько они довольны предлагаемым продуктом. Хорошая новость в том, что можно опросить своих клиентов, и попытать восполнить этот пробел.

При этом есть несколько важных вещей, о которых нужно помнить:

  1. Разные люди имеют разную склонность отвечать на наши вопросы.

  2. Так как, исследовать нашу аудиторию целиком зачастую сложно и дорого, мы оцениваем характеристики популяции по ее подвыборке. Поэтому необходимо знать, как правильно распространить результаты на всю выборку.

Решение

Пусть мы хотим оценить некоторую характеристику популяции по подвыборке из данной популяции. Подвыборка клиентов извлекается случайным образом из всего набора клиентов во время исследования. Людей из подвыборки просят ответить на ряд вопросов, по которым оценивается необходимая характеристика. Наша цель по подвыборке построить несмещенную оценку данной характеристики для всего набора клиентов.

Вероятность попадания в выборку и ответа на вопросы может различаться для разных групп представителей. Например, доля мужчин и женщин среди покупателей онлайн магазина косметики может отличаться. Так же может отличаться вероятность ответа среди разных полов. Хотя эти вероятности отличаются между группами, мы предполагаем, что внутри одной группы данные вероятности одинаковы. Например, мы можем считать, что вероятность попадания в исследование и вероятность ответа одинаковы среди мужчин. Несомненно, необходимо понимать, как правильно составить такие группы. В реальной жизни такие группы будут иметь более сложную структуру. Как мне кажется, оптимальным вариантом является обсуждения этого вопроса с представителями бизнеса. Так же можно проверить распределения искомых характеристик внутри групп. Для этого, например, можно разбивать каждую группу на две случайные подгруппы и проводить тестирования одинаковости распределения искомой величины.

Данная проблема имеет некоторую представленность в литературе. В данном тексте я предлагаю использовать подход оценки Горвица - Томпсона[2].

Формально:

Заключение

Преимущество такого подхода - простота реализации. Однако, было бы здорово увидеть в комментариях другие мнения о плюсах и минусах.

Ссылки

[1] - Practical approach to evaluating client profiles by population survey data.

[2] - The propensity score and estimation in nonrandom surveys — an overview

Комментарии (3)


  1. uchitel
    16.12.2022 07:07

    Попробуйте вероятностное программирование.


    1. boggis30 Автор
      16.12.2022 11:12

      можете чуть подробнее пояснить?


      1. uchitel
        16.12.2022 15:54

        Объяснить в одном комментарии к сожалению не получится, но я попробую.

        Смысл в том, что есть модель которая объясняет ваши данные. У модели есть параметры. Что бы оценить параметры на основе данных можно воспользоваться Байесовским выводом. Так вы оцените их наиболее вероятные значения + сохраните неопределенность = окажетесь в шоколаде. Я пользуюсь pymc3 для вывода.