Привет Хабр! Анализируя пользовательские данные для нужд маркетинга и рекламы, мы решили исследовать влияние типа личности пользователя на то, как он реагирует на рекламное объявление. За основу решили взять, пожалуй, самую популярную типологию линостей MBTI (Myers-Briggs Type Indicator), известную еще с середины 20-го века. Многие крупные западные компании используют тесты MBTI при найме или при формировании команды для работы над проектами.

Но нас интересует, конечно, не готовность пользователя к командной работе, а влияние его типа личности на желание кликнуть по баннеру. Поэтому вопрос, который мы исследовали звучит так: «Могут ли типы личности влиять на CTR в рекламных кампаниях?»

В этой статье я расскажу о том как мы это делали.



Типология Майерс — Бригс


Типология Майерс-Бриггс включает в себя четыре характеристики.

  1. E—I — направленность жизненной энергии:
    Е (Еxtraversion, экстраверсия) — на внешний мир;
    I (Introversion, интроверсия) — на внутренний мир;

  2. S—N — способ ориентирования в ситуации:
    S (Sensing, здравый смысл) — ориентирование на конкретную информацию;
    N (iNtuition, интуиция) — ориентирование на обобщённую информацию;

  3. T—F — основа принятия решений:
    T (Thinking, мышление) — рациональное взвешивание альтернатив;
    F (Feeling, чувство) — принятие решений на эмоциональной основе;

  4. J—P — способ подготовки решений:
    J (Judging, суждение) — предпочтение планировать и заранее упорядочивать информацию;
    P (Perception, восприятие) — предпочтение действовать без детальной предварительной подготовки, больше ориентируясь по обстоятельствам.

Сочетание характеристик, описанных выше, даёт обозначение одного из 16 типов, например: JTSE.

Определение типа личности


Чтобы определить тип личности пользователя мы построили четыре классификатора, по одному для каждой из характеристик.
Для обучающей выборки мы использовали информацию одного из наших сайтов-партнеров, на этом сайте пользователь заполняет анкету, по которой определяется его тип личности. Объем выборки составляет около десяти тысяч пользователей.

Зависимая переменная в каждом из классификаторов — это классы характеристик. Например, для характеристики E-I: I — положительный класс (1), E — отрицательный класс (0).

В качестве независимых переменных мы использовали историю поведения пользователя в Интернете (посещенные страницы) за период, предшествующий прохождению теста на сайте-партнере. Адрес каждой посещённой страницы представляется в виде токенов: слов длинной от трех до десяти символов. Например, адрес habrahabr.ru/company/dca/blog/260845 преобразовывается в следующий набор токенов: ['http', 'habrahabr', 'company', 'dca', 'blog'].

После этого все данные случайно делятся на обучающую выборку (37.5%), выборку для feature engineering (37.5%) и тестовую выборку (25%).

Процесс feature engineering похож на тот, что мы используем для иерархической классификации сайтов, которая описана в нашей предыдущей статье, тем не менее, опишу его ниже.

Feature engineering


Для каждого токена в выборке для feature engineering мы вычисляем следующие характеристики

  • сколько раз встретился токен (total_number);
  • сколько раз встретился токен, при условии, что пользователь принадлежит положительному классу (true_number);
  • сколько раз встретился токен, при условии, что пользователь принадлежит отрицательному классу (false_number);

Далее считаем метрику distributed grade (dg) для каждого токена. Выбираем двадцать токенов с наибольшим значением этой метрики для каждого класса. В результате получаем сорок признаков. Значения признаков — условные вероятности принадлежности токена к классу: true_number к total_number и false_number к total_number.

Характеристики полученных классификаторов


Для классификации мы использовали Gradient Boosting Classifier из библиотеки scikit-learn. Для оценки качества классификаторов мы анализировали площадь под ROC кривой. ROC кривая – это графическая характеристика качества бинарного классификатора. Кривая отражает зависимость TPR (true positive rate) от FPR (false positive rate).



где TP — true positive, FP — false positive, FN — false negative, TN — true negative.

Площадь под ROC кривой AUC (Area Under Curve) является характеристикой качества классификации: чем больше значение AUC, тем лучше модель классификации.

В процессе подбора параметров нам удалось увеличить эту метрику с 0.63 до 0.77, с помощью поиска по решётке для параметров n_estimators(количество деревьев) и max_depth(глубина деревьев). В таблице 1 приведены итоговые значения площади под ROC кривой для каждого из классификаторов. А на рисунке ниже построены сами ROC-кривые.

Таблица 1: площади под ROC кривой классификаторов
E-I классификатор 0.763
S-N классификатор 0.793
T-F классификатор 0.768
J-P классификатор 0.768

ROC кривые классификаторов

Проверка на реальных данных


Ну вот мы и добрались до самого интересного. А именно до ответа на вопрос «Могут ли типы личности влиять на CTR в рекламных кампаниях?».

Чтобы это понять мы проанализировали данные одной из наших рекламных кампаний. При этом на аудиторию этой кампании не было наложено никаких ограничений. Всего в рамках этой кампании было сделано более 89-и миллионов показов. Для анализа мы использовали около 30 000 уникальных пользователей, которые кликнули по баннеру и 300 000 уникальных пользователей, которым хотя бы раз показывался баннер.

Далее, мы оценили вероятность пользователя принадлежать к одному из классов для каждой характеристики нашей типологии. Затем, взяли 10% пользователей с наиболее высокими вероятностями и 10% с наиболее низкими вероятностями. В каждой из групп мы оценили CTR и построили для него 95% доверительные интервалы по формуле Вильсона (wilson score interval)



где n — объём выборки,, где k — количество кликов, — альфа-квантиль стандартного нормального распределения.

Как видно из таблицы 2 для характеристик E-I и T-F различие в ctr составляет более 20% и является статистически значимым. В то время как для характеристик S-N и J-P различие в CTR статистически значимым не является. Таким образом, существуют рекламные кампании, в которых типы личности влияют на CTR.

Таблица 2: оценки CTR и доверительные интервалы
Extraversion
Introversion
8.7
11.4
(8.4, 9.0)
(11.1, 11.8)
Sensing
Intuition
10.2
10.0
(9.9, 10.6)
(9.7, 10.4)
Thinking
Feeling
9.5
12.5
(9.1, 9.8)
(12.1, 12.9)
Judging
Perception
10.0
10.7
(9.6, 10.3)
(10.3, 11.1)

Стоит отметить, что это результат для конкретной рекламной кампании, который во многом определяется тем, что именно в рамках нее мы рекламировали, внешним видом баннеров и т. п. Возможно, на других кампаниях значимое различие в CTR было бы у других характеристик.

Что дальше


Различие CTR в разных классах на 20% вдохновляет нас на применение знаний про типы личности при проведении рекламных кампаний. В ближайшее время мы планируем сделать восемь cегментов пользователей, доступных для таргетирования рекламных кампаний — по два на каждую из характеристик. Кроме того, перед нами стоит задача научиться до старта рекламной кампании понимать, какому типу личности информация из нее будет наиболее интересна.

Но это не единственное применение полученных нами сегментов. Информацию о типах личности можно использовать почти во всех сферах бизнеса.

Например, при проведении большой кампании по найму сотрудников (обычно это делают сети фастфуда, производственные предприятия и торговые сети) можно таргетировать рекламу на людей с определенными характеристиками. Таким образом уже на входе сужается воронка конверсии и заметно сэконмится бюджет.

Из менее очевидного – зная психотип пользователей сайта, компания может адаптировать его внешний вид и контентное наполнение, чтобы лучше соответствовать ожиданиям и, как результат, повышать продажи.

По сути любой бизнес, работа которого строится на взаимодействии с большим количеством клиентов через digital-каналы, сможет найти применение этих знаний для оптимизации своих процессов и построения более персонифицированных коммуникаций.

Полезные ссылки


» Здесь информация для тех, кто хочет поближе познакомиться с ROC кривыми
» Здесь можно изучить подробности о доверительном интервале, который мы использовали (wilson score interval)
» А здесь можно прочитать про типологию Майерс-Бриггс.

Комментарии (46)


  1. NeoCode
    28.07.2015 17:32
    +6

    Ну и зачем было выделять из Хабра Гиктаймс и Мегамозг?


    1. Newbilius
      28.07.2015 17:34
      +7

      Чтобы подобные посты компаний лучше выделялись)


  1. Crandel
    28.07.2015 17:38

    [сарказм]Зачем столько кода на питоне?[/сарказм]


  1. Tyleesa
    28.07.2015 19:04
    +1

    В профессиональной среде психологов, насколько мне известно, распространено мнение о ненаучности типологии Майерс-Бригс (а также схожих с ней соционики и прихейоги).

    Участвовали ли в эксперименте профессиональные психологи?

    По описанию типирования, больше похоже, что Вы классифицировали людей по интересам, а не по типам личности. Анализ интересов пользователя на основании истории браузера — популярная практика. Что нового, по мнению автора исследования, в данном материале по отношению к существующим методам?


    1. kfedorenko Автор
      28.07.2015 20:34
      +4

      Не являясь профессиональным психологом не берусь рассуждать о научности или ненаучности типологии Майерс-Бригс. В пользу выбора этой типологии скажу лишь, что статья «The Myers-Briggs Type Indicator: Manual (1962)» по данным google.scholar цитируется более 1000 раз, а сама типология широко используется по всему миру, например, до 70% выпускников средних школ проходят определение типа личности с помощью MBTI для целей выбора будущей профессии.

      Но, вообще говоря, дело даже не в выборе конкретно этой типологии(можно проделать аналогичные действия, взяв за основу другую типологию), а в том, что мы смогли ответить на вопрос «Могут ли типы личности влиять на CTR в рекламных кампаниях?». Найти ответ на этот вопрос и было целью исследования.

      По описанию типирования, больше похоже, что Вы классифицировали людей по интересам, а не по типам личности.

      Это Ваше утверждение мне не понятно. Всегда считала, что за признак классификации отвечает зависимая переменная — в каждом классификаторе это одна из характеристик типа личности, а значит мы классифицировали людей именно по типам личности.

      Что нового, по мнению автора исследования, в данном материале по отношению к существующим методам?

      Отвечая на этот Ваш вопрос, хочу отметить, что провести исследование не значит придумать новый метод, а значит получить новые, до этого не известные результаты. Результатом конкретно этого исследования является то, что нам удалось увидеть статистически значимое различие в CTR между группами пользователей, относящихся к разным типам личности.


      1. Tyleesa
        28.07.2015 22:00
        +2

        Цитируемость этой статьи говорит о популярности и раскрученности типологии, но, увы, не о степени ее научности. Если типология ненаучна, ставится под сомнение легитимность исходного вопроса («Могут ли типы личности влиять на CTR в рекламных кампаниях?»), так как ставится под сомнение существование типов личности по типологии Майерс-Бригс.

        В качестве независимых переменных мы использовали историю поведения пользователя в Интернете (посещенные страницы) за период, предшествующий прохождению теста на сайте-партнере. Адрес каждой посещённой страницы представляется в виде токенов: слов длинной от трех до десяти символов. Например, адрес habrahabr.ru/company/dca/blog/260845 преобразовывается в следующий набор токенов: ['http', 'habrahabr', 'company', 'dca', 'blog'].

        Я вот об этом. Вы, каким-то образом прописав корреляцию между этими токенами и типами личности по Майерс-Бригс (здесь и далее вопрос о научности типологии опущу, но напомню, что на вопрос о том, участвовал ли психолог, Вы так и не ответили), по сути исследуете зависимость CTR от определенных групп интересов пользователей (обоснование правильности объединения этих интересов в эти конкретные группы применительно к этой типологии остается за кадром статьи).

        По сути, Вы исследуете зависимость CTR пользователя от его интересов, а Майерс-Бриггс приплетены исключительно для поднятия мнимой значимости материала.

        Что нового в результатах эксперимента, показавшего, что пользователи с определенными интересами, скорее всего, заинтересуются определенной рекламой? Это известно уже больше века.

        Если кому-то интересен комментарий психолога (пусть и популяризатора), вот ролик того же Невеева на тему этой типологии.


        1. kfedorenko Автор
          28.07.2015 22:31
          +1

          Я вот об этом. Вы, каким-то образом прописав корреляцию между этими токенами и типами личности по Майерс-Бригс (здесь и далее вопрос о научности типологии опущу, но напомню, что на вопрос о том, участвовал ли психолог, Вы так и не ответили), по сути исследуете зависимость CTR от определенных групп интересов пользователей (обоснование правильности объединения этих интересов в эти конкретные группы применительно к этой типологии остается за кадром статьи).

          По сути, Вы исследуете зависимость CTR пользователя от его интересов,…


          Нет, это вовсе не так.
          Мы исследуем зависимость CTR пользователя от его типа личности. Именно поэтому процедура состоит из трех этапов: сначала построение классификатора, затем определение вероятности пользователя принадлежать к одному из классов характеристики(например, к классу интроверт или экстраверт) и последний этап — исследование CTR в группах, относящихся к разным классам.
          То что для классификатора мы используем посещенные страницы пользователя(видимо, это Вас смущает) не означает того, что Вы утверждаете. То, что Вы утверждаете, было бы верным, в случае, если бы мы сделали кластеризацию пользователей по токенам, и отдельно в каждом кластере изучали CTR.


          1. gbezyuk
            29.07.2015 08:25
            +1

            Ну обозвали вы классы интересов «интравертами» и «экстравертами», ну сделали их произведением 4-х бинарных классификаторов. Всё равно это всего лишь группировка по интересам, а про «типы личностей» — притянуто за уши, уж простите.


            1. asash
              29.07.2015 09:06
              +1

              Не совсем так.
              По сути в статье дается ответ на два вопроса.
              1) Можем ли мы определить тип личности на основе поведения пользователя(или его интересов если хотите). Ответ — можем с достаточно высокой точностью. Об этом говорят значения метрики качества классификатора (0.77 можно считать хорошим значением для данной задачи).
              2) Может ли быть выявленный на основе поведения тип личности быть полезен для таргетирования рекламных компаний. Ответ — можем, по 2-м из 4х измерений на пробной рекламной кампании получили статистически значимое отклонение CTR по противоположным типам личности.

              То есть еще раз: зависимости исследовано две(тип личности от поведения/интересов) и CTR от типа личности, а не одна прямая зависимость CTR от поведения.


              1. heilage
                29.07.2015 09:24
                +1

                Эти выводы исходят из заведомо ложной предпосылки о доказанном существовании типов личности, и именно это вызывает отторжение. В среде психологов уже давно известна несостоятельность диспозиционных типологий.
                Простыми словами: в исследовании проводится классификация пользователей по заранее заданным группам, вместо кластеризации и последующего выявления особенностей найденных групп. Где обоснование того, что групп не больше и не меньше? Откуда взялось предположение, что пользователь не может принадлежать к нескольким группам одновременно? Каковы критерии истинности данного разбиения, т.е. как мы поймем что классификация проведена корректно? И таких вопросов очень, очень много.


                1. asash
                  29.07.2015 10:14
                  +1

                  Собственно нигде и не было сказано что классификация идеальная или что-то такое.
                  Она как и любая теория имеет свои ограничения, но в каких-то ограничениях-работает. Задачей было проверить укладываются ли клики по баннерам в эти самые ограничения, или для прогнозирования кликов эта теория не применима. Ответ получен статистически значимый — используя разные социотипы получаем разный(статистически значимо разный) результат, значит используя для таргетирования рекламы можно улучшить отклик от рекламной кампании. Таким образом бизнес-задача была решена.
                  Никто нигде не утверждал что типология идеальна, что она всесторонне позволяет оценить человека, и лично я не согласен с тем что человека можно описать всего 4-мя признаками. Мы думаем какие еще можем выделить полезные признкаки исходя из поведения и для этого в том числе консультируемся с профессиональными психологами.


                  1. asash
                    29.07.2015 10:17
                    +1

                    Кстати если кто-то подскажет более «правильную» таксономию типов личности и даст ссылку на тесты их выявляющие — для нас это будет очень интересно и мы скажем большое спасибо :)


                    1. heilage
                      29.07.2015 10:26

                      Еще раз — диспозиционные типологии несостоятельны. То есть нет и не может быть таксономии, определяющей единый и неизменный тип личности. Мне известно, что на данный момент рассматриваются ситуационные модели, которые учитывают не только какие-то эфемерные сборные признаки, но и предыдущий опыт человека, а также ситуацию, в которой производится наблюдение.


                      1. asash
                        29.07.2015 10:58
                        +1

                        Я придерживаюсь точки зрения что теория состоятельна до тех пор пока она позволяет решать практические задачи. Например ньютоновская механика не работает для расчетов скоростей планет(нужно учитывать релятивистские эффекты) но вполне подходит для повседневных задач, хотя и является «заведомо ложной». Также и в данном случае-была проверена гипотеза о том что конкретная теория для решения конкретной задачи. Ответ был получен математически строгий — да, подходит. Для большинства теорий существуют границы их применения, и это не делает их «заведомо ложными» там где они работают.


                      1. YgReEk
                        29.07.2015 13:47
                        -1

                        asash Преемником MBTI считается NEO PI-R, и она действительно ситуационна, как и говорит heilage, проверено на себе. Прохожу оригинальный тест на 300 вопросов раз в год, результаты меняются (хоть и не очень сильно, но разница накапливается). Причём некоторые вопросы-ответы действительно зависят от настроения отвечающего, от стрессовости ситуации, от того, отвлекают ли его… Можете, ради эксперимента, пройти тест с разницей в день будучи в разном настроении.
                        Поэтому придётся делать поправки на то, в каком человек сейчас состоянии, торопится он или нет в прохождении теста, понимает ли английский (т.к. насколько я знаю, на русский корректно NEO PI-R до сих пор не переведён) и прочее, и прочее. Боюсь, статистически значимые результаты получены не будут.

                        P.S. asash, где вы взяли такого партнёра, который вам 10к анкет передал? И какой MBTI использовался, Step 1 же? От качества тестирования очень многое зависит.


                        1. asash
                          29.07.2015 14:06
                          +1

                          Раскрывать партнера к сожалению мы не можем, но могу сказать что это один из популярных публичных сервисов определения своей личности. Субъективно тест выглядит адекватным, лично для меня ответы на все вопросы выглядят однозначными.


                          1. YgReEk
                            29.07.2015 15:25
                            -1

                            В нём, хотя бы, больше 90 вопросов?


              1. jzha
                29.07.2015 09:37
                +1

                У меня вопросы к вашим утверждениям.
                1) Разве полученное хорошее качество классификации характеристик дает возможность говорить и хорошем качестве классификации типов?
                2) Вы получили значимое отличие CTR в 2 классах. Но это не говорит о значимом различии для каких-либо типов, да? Например, даже не ясно какая ситуация для ET vs IF. Если вы использовали доверительные интервалы CTR для вывода о существенном отличии этой величины в классах характеристик, может вы добавите еще график доверительных интервалов для всех 16 типов?


                1. asash
                  29.07.2015 10:22

                  1) Нет, не дает. Но вопрос качества самой MBTI-классификации выходит за рамки данного исследования. Мы математики а не психологи, поэтому взяли самую известную классификацию и проверили годится ли она для чего-либо :)
                  2) Действительно данное исследование показывает что значимо отличаются бинарные признаки. Про добавить табличку со всеми 16-ю типами подумаем.


                  1. Tyleesa
                    29.07.2015 12:27
                    +1

                    Каким образом вы вообще вывели соответствие определенных токенов типам личности по MBTI? Как вы можете гарантировать, что определенные интересы соответствуют определенным типам личности?


                    1. asash
                      29.07.2015 12:33

                      Способ выявления соответствия — это класcическое машинное обучение(в данном случае Gradient Boosting). Гарантия не дается, мы говорим в терминах вероятностей. То есть примерно так «наша уверенность в том что данный человек является интровертом составляет 70%».

                      Проверка проводилась кросс-валидацией. Мы заранее отобрали часть пользователей для которых тип личности был выявлен классическим способом(прохождение теста), а затем сравнили показания с выдачей алгоритма.


                      1. Tyleesa
                        29.07.2015 12:38

                        Каков размер выборки пользователей, проходивших опросник?


                        1. kfedorenko Автор
                          29.07.2015 12:46

                          Эта информация указана в статье:

                          Для обучающей выборки мы использовали информацию одного из наших сайтов-партнеров, на этом сайте пользователь заполняет анкету, по которой определяется его тип личности. Объем выборки составляет около десяти тысяч пользователей.


                          1. Tyleesa
                            29.07.2015 12:51
                            +1

                            Учитывалась ли погрешность опросника MBTI, анкеты сайта партнера?
                            Что гарантирует их качество?
                            Да, вы — математики, а не психологи, но это же не является основанием использовать в своих исследованиях некачественные инструменты из других профессиональных областей.


                            1. asash
                              29.07.2015 13:55
                              +1

                              Используемый метод предполагает наличие ошибок данных(как и большинство современных методов машинного обучения).
                              Гарантия качества каждой конкретной анкеты не требуется, требуется чтобы среди люей отнесенных к определенному классу действительно было больше людей из этого класса.


                              1. Tyleesa
                                29.07.2015 13:58

                                То есть, при погрешности в 50% и больше, метод не работает и может выдавать непроверяемо некорректные результаты?


                                1. asash
                                  29.07.2015 14:25

                                  Если погрешность слишком большая, то модель получится плохая и на контрольной выборке предсказание не будет кореллировать с действительностью.


                  1. jzha
                    29.07.2015 13:00
                    +1

                    1) Вы утверждаете, что можете с достаточно высокой точностью определять тип личности на основании поведения пользователя. Но на основании каких математических обоснований сделан этот вывод мне не ясно. Поэтому хотел прояснить этот вопрос. Мне было бы интересно посмотреть на оценки качества классификации типов.

                    2) В статье было заявлено, что тип личности значимо влияет на CTR. Тогда как в действительности показано, что в двух из четырех бинарных характеристиках можно утверждать о различии в CTR, для остальных двух вопрос остался открытым. Какая картина наблюдается в CTR для различных типов, на мой взгляд, не продемонстрировано.

                    3) Тоже не психолог, но хочу уточнить — типы личностей в выборке определялись по каким-то косвенным вопросам анкеты или сами респонденты причисляли себя к определенному типу?


                    1. asash
                      29.07.2015 14:01

                      1) Если уж совсем точно — мы можем предсказывать не «тип личности», а «результат анкетирования на выявления типа личности». Этот результат подтверждается валидацией по контрольной выборке (которая не участвовала в обучении модели). Для оценки использовался ROC-анализ, по каждому из 4-х признаков приведена кривая характерезующая качество.
                      2) Был дан ответ на вопрос «а может ли влиять признак на CTR». Ответ — да может, на одной из рекламных кампаний по 2-м принакам есть значимое различие. Других выводов сделано не было )
                      3) Типы определялись по косвенным признакам — результату анкетирования. Разработкой анкеты занимался партнер.


                      1. jzha
                        29.07.2015 14:39

                        1) Возможно это занудство, но все таки если уж совсем точно — вы построили хороший классификатор на выявления каждой из четырех характеристик в отдельности. Извините, так и не понял, зачем вы упоминаете в контексте этого классификатора о выявление типа личности.
                        2) Меня смутил заголовок вашей публикации «Типы личностей: влияние на восприятие рекламы». Я не предполагал, что вашей целью было обнаружения влияния признаков (опять в отдельности), определяющих эти типы личностей.

                        Спасибо за ответы и за то, что поделились опытом.


    1. rdc
      24.08.2015 20:27

      Соционика и Майерс-Бригс — это одна и та же типология. Разница там только в терминологии.
      А по поводу «прихейоги» — всё верно)


  1. jzha
    28.07.2015 19:06

    Вы определяется статистическую значимость отличия CTR на основании того, пересекаются ли их доверительные интервалы?


    1. kfedorenko Автор
      28.07.2015 20:00

      Да, все так.


      1. jzha
        28.07.2015 20:43

        вообще говоря, из того, что 95% доверительные интервалы пересекаются, не следует что ошибка отклонения нуль-гипотезы о равенстве долей превышает 5%.


        1. sergeymarshak
          28.07.2015 20:49

          А по конверсия смотрели?


          1. kfedorenko Автор
            28.07.2015 21:42
            +1

            Нет, пока исследовали только влияние на CTR.


            1. sergeymarshak
              28.07.2015 23:15

              Жду новостей, успехов в исследованиях!


        1. kfedorenko Автор
          28.07.2015 21:42
          +1

          Да, вы правы, утверждать, что в оставшихся случаях различие статистически не значимо, вообще говоря, неверно.
          Однако, для этих характеристик и фактическое различие в CTR невелико. В любом случае, нам было интересно увидеть значительное фактическое различие в CTR и проверить его статистическую значимость.


  1. shinkei
    28.07.2015 19:18
    +6

    Соционика уже до хабра добралась.


  1. sergeymarshak
    28.07.2015 20:47
    +2

    Как пройти тест и можете ли на основе моего пользовательского портрета сделать вывод? Хочу побыть и в контрольной и в экспериментальной выборке


  1. bougakov
    29.07.2015 13:22
    +1

    Вы взяли хороший психографический опросник.

    Сгруппировали (читай — огрубили) его данные в малонаучные макро-характеристики.

    На основе этих макро-характеристик построили модель.

    Давайте оставим вопрос о слабости MBTG и всякой соционики и зададим простой честный датамайнерский вопрос — ЗАЧЕМ? Зачем искусственно огрублять прекрасные исходные данные предварительной искусственной обработкой, если вы их могли подать на вход алгоритму непосредственно, сразу?


    1. asash
      29.07.2015 14:11
      +1

      Не очень понятно что конкретно мы огрубили и что должны были подать алгоритму сразу?


      1. galk_in
        29.07.2015 14:34
        -1

        Типы личности, а не их составные части.


  1. BalinTomsk
    29.07.2015 19:14
    +1

    бывают и другие типы:

    The Ambivert

    Socially flexible—comfortable in social situations or being alone.
    Skilled at communicating—intuits when to listen or to talk.
    Moderate in mood—not overly expressive or reserved.
    Adaptable—no default mode, so they change their approach to fit the situation


  1. InFortis
    31.07.2015 11:07
    +1

    Я психоаналитик, психолог. Типологиями занимаюсь с 1996 года.
    По типологии. MBTI это кривоватое переложение и развитие типологии Юнга. У Юнга гораздо глубже, точнее и эффективнее. Если на то пошло, то Соционика к Юнгу ближе, в эффективности и глубине не уступает. По крайней мере, в моем опыте терапевтической работы. Кроме прочего, проблема в процедуре тестирования. По каждой шкале точность максимум 80%, поскольку шкал 4, то на выходе получаем 0.8*0.8*0.8*0.8=0.4096. Вероятность определения – никакая. В работе мы с коллегами либо останавливаемся на проявленных шкалах (чаще 3 из 4х), либо для ряда задач проводим экспертизу, тогда выходим на типаж с точностью больше 90%.
    По обучающей процедуре. Для обучения системы взята невалидная информация. Лучшие из анкет, которые я видел, имеют 60% точность по сравнению с экспертным методом. Я бы предположил, что на сайте-партнере точность на уровне 50% максимум. Почти «угадал-не угадал» ). Брать такую информацию за исходную мне кажется неверно.
    По Feature engineering. Моей квалификации хватает только увидеть его корректность.
    По процедуре проверки данных. Реакция на баннер в контексте шкал Юнга сильно зависит от того, как содержащиеся на баннере элементы резонируют с каждой из шкал. Например, такие элементы как открытые пространства предпочитаются экстравертами, лаконичность образов – интровертами, эстетическое оформление ценится эмоциональным типом и т.д. Без анализа самих демонстрируемых баннеров трудно оценить таблицу «Оценки CTR».
    По выводам. Целиком согласен с описанием перспектив. Единственно предложил бы использовать более точные технологии сегментирования пользователей по психологическим характеристикам.


  1. asash
    01.08.2015 09:38

    Как уже писали выше, честнее конечно было бы сказать что мы предсказывали не честный социотип, а социотип выявленный анкетой. При этом качество предсказания получилось достаточно высокое, отнюдь не 50/50 (см ROC-кривую).
    Вопрос который был поставлен в рамках исследования — может ли таргетирование на предсказанный социотип(хотя бы по каким-то из измерений) быть полезным для рекламных кампаний быть полезным. Полученный ответ говорит что может, безотносительно к качеству начальных данных, и качеству самой MBTI — этого качества оказалось достаточно чтобы зафиксировать 25% повышения CTR%.

    Исследования выявления классов заранее(еще до рекламной кампании), выбор других характеристик — все это безусловно интересно и будет делаться, но выходит за рамки приведенного исследования.