1. Вступление


Показан процесс анализа информации в сфере прикладной психологии. Если быть более точным, то я поделюсь своим опытом поиска различий между двумя группами людей. Будет показан один из самых популярных сценариев решения подобной задачи, а также приведены примеры исходного кода на языках программирования R и Python. Важно понимать, что вся изложенная информация является моим личным субъективным мнением.


2. Небольшая предыстория


Бывает так, что лучший результат показывают самые неожиданные метрики. Даже эксперты не всегда могут объяснить высокую важность подобных предикторов. Особенно ярко эта проблема проявляется в «расплывчатых понятиях прикладной психологии», таких как мотивация человека или его уверенность. Если говорить по существу вопроса, то речь идёт о необходимости решить задачу бинарной (дихотомической) классификации, а также выявить степень важности предикторов.


Несколько слов о планах. Во-первых, с помощью методов описательной статистики, визуального отображения и машинного обучения постараемся найти различия между двумя группами наблюдений. Во-вторых, увидим один из возможных сценариев поиска причин такой психологической проблемы, которую часто называют неуверенностью и отсутствием мотивации.


3. Первая попытка анализа данных


В задачах анализа поведенческих факторов очень много метрик подчинены закону распределения Гаусса (нормальное распределение). Особый интерес представляют не только те наблюдения, которые слабо отклоняются от математического ожидания, но и очень редкие наблюдения, расположенные за пределами трёх сигм. Дело в том, что в таких «крайних случаях» важные свойства могут проявляться наиболее ярко. Вообще, в прикладной психологии очень яркие проявления черт личности редко встречаются в популяции, но могут служить ключом к пониманию поведения большинства людей.


Любое очень детальное исследование поведения человека будет содержать немало сильно коррелирующих между собой предикторов. Можно сказать, что мультиколлинеарность — это привычное свойство таких наборов данных. Часто отмечается настолько выраженная линейная зависимость, что она может быть легко аппроксимирована простой линейной регрессией (методом наименьших квадратов). Даже гетероскедастичность относительно редкий спутник таких наборов. Тут хочется использовать метод главных компонент, чтобы сократить размерность. Вот только лучше всего использовать специальные методы предметной области, иначе мы рискуем потерять осмысленность данных.


Данные я заранее подготовил, объединив нужные метрики в четыре основных показателя. Но смысл этих данных я пока раскрывать не буду, по этой причине я выбрал для предикторов зашифрованные имена — латинское написание греческих букв. А пятая метрика будет выступать в роли метки класса наблюдения (0 или 1 — бинарная классификация). Как говориться, лёгким движением руки данные были экспортированы в стандартный файл формата CSV. Прежде всего, бегло посмотрим на них.


dataset.info()

'''
RangeIndex: 319 entries, 0 to 318
Data columns (total 5 columns):
alpha    319 non-null int64
beta     319 non-null int64
gamma    319 non-null int64
delta    319 non-null int64
class    319 non-null int64
dtypes: int64(5)
memory usage: 12.5 KB
'''

Очевидно, что загрузка прошла успешно. Во всяком случае, структура данных ожидаемая. Посмотрим несколько случайно выбранных наблюдений. Глядя на эту небольшую выборку можно сделать два интуитивных предположения. Во-первых, представители обоих классов распределены приблизительно равномерно. Во-вторых, один из предикторов похож на возраст, а не на сложную составную метрику. Однако, по такому небольшому фрагменту данных делать серьёзные выводы будет опрометчиво.


dataset.sample(9)

'''
     alpha  beta  gamma  delta  class
264     23  4932   3332   7429      1
216     31  4975   5541   3660      0
139     26  6686   4211   7729      1
18      23  4301   3063   3559      0
280     22  6043   2865   6491      0
212     25  7249   2974   3506      0
167     21  6929   6472   7203      1
272     29  5850   3576   7469      1
288     27  5382   4051   6413      1
'''

Теперь взглянем на описательную статистику. Действительно, первый столбец очень сильно напоминает возраст. Даже минимальное значение (18 лет) смотрится как-то логично. Что касается других предикторов, то они очень тяжело интерпретируются. Обычно, чем больше показатель, тем выше у человека проявляется изучаемое качество или свойство личности. Но это пока пусть остаётся загадкой.


dataset.describe()

'''
            alpha          beta        gamma        delta       class
count  319.000000    319.000000   319.000000   319.000000  319.000000
mean    29.416928   6451.351097  4556.492163  6127.012539    0.573668
std      7.498752   1725.993779  1524.070105  2113.231684    0.495320
min     18.000000   1930.000000  1805.000000  2624.000000    0.000000
25%     24.000000   5379.000000  3310.000000  4012.500000    0.000000
50%     28.000000   6405.000000  4327.000000  6237.000000    1.000000
75%     33.000000   7555.500000  5562.500000  7968.500000    1.000000
max     51.000000  10476.000000  8428.000000  9682.000000    1.000000
'''

Попытаемся выстроить некоторую гипотезу о природе измерений. Распределение предполагаемого возраста похоже на результат подбора людей для исследования. Это создаёт интуитивное ощущение правильности предположения о смысле этого предиктора. Что касается понимания назначения других предикторов, то гистограмма нам не очень сильно помогла. Важно подчеркнуть, что категориальных (номинативных) и ранговых предикторов в этом наборе данных нет. Все числа были натуральными (целое и больше нуля). Пропущенных значений нет.


dataset.hist(bins = 20)


Очевидно, что один из предикторов сильно коррелирует с меткой наблюдения. Точнее, линейный коэффициент корреляции Карла Пирсона достаточно хорошо выделяется у двух предикторов, но один из них проявился особенно сильно.


sns.heatmap(dataset.corr(), square = True, annot = True)


Вполне логично сравнить среднее значение или медиану у представителей разных классов. В данном конкретном наборе данных мы замечаем остро выраженное различие у «delta». На столько сильное, что проверять статистическую значимость нет особого смысла — всё очевидно.


dataset.groupby('class').median()

'''
       alpha    beta   gamma   delta
class
0       26.0  5656.5  3593.5  4176.0
1       29.0  7072.0  4825.0  7653.0
'''

Пожалуй, нельзя обойти стороной ещё одну часто встречаемую ситуацию — разделение наблюдений на несколько кластеров. И различия у этих кластеров могут быть весьма значительными. Это необходимо учитывать, чтобы случайно не совершить ошибку «усреднения». Но сейчас нет такой ситуации.


pd.plotting.scatter_matrix(dataset, alpha = 0.2, diagonal = 'kde')


А теперь отобразим разными цветами представителей разных классов. Один из предикторов весьма информативен. Это для нас не сюрприз. Именно его медиана и среднее значение явно отличались у представителей разных классов. Судя по изображению может существовать такая гиперплоскость, которая с достаточно высокой точностью разделит классы. Линейная сепарабельность очень часто встречается у наборов данных поведенческих факторов, что делает возможным использовать быстрый алгоритм логистической регрессии.


sns.pairplot(dataset, kind = 'reg', hue = 'class', size = 2)


Ещё немножко субъективного мнения: лично мне удобнее искать зависимости или различия (либо факт их отсутствия), если классы отображены в разных столбцах. Например, у показанных ниже предикторов явно нет взаимосвязи, но есть очень слабая разница в значении (некоторые «зелёные» чуть больше).


sns.lmplot(
    x = 'gamma',
    y = 'beta',
    hue = 'class',
    col = 'class',
    data = dataset,
)


А теперь можно приступать к стадии применения алгоритмов машинного обучения. В процессе предварительного изучения данных мы заметили, что категориальных (номинативных) предикторов нет, следовательно, нет смысла использовать для их преобразования One-hot encoding. Так как мы планируем использовать алгоритмы на основе ансамблей (комитетов) деревьев решений, то выполнять масштабирование (нормализацию) тоже нет смысла. Все значения в правильном формате и нет пропущенных данных. Таким образом, наши данные не требуют какой-либо подготовки.


4. Решение задачи с помощью машинного обучения


Напомню суть задачи. Было проведено исследование психологии поведения людей, в рамках которого были собраны необходимые измерения. Исследователям заранее известно к каком классу принадлежит человек. А классов получилось строго два — факт наличия или отсутствия изучаемой проблемы. Теперь исследователей интересуют два вопроса. Во-первых, можно ли вообще по собранным данным достаточно точно выявить проблему? Во-вторых, какие предикторы оказывают влияние на результат, а какие нет?


Первым делом попробуем алгоритм машинного обучения Random Forest. Это объясняется очень просто: он не требует детальную предварительную настройку, хорошо работает с данными разной природы и способен автоматически выявить степень важности предикторов. Обратим внимание, что размер входной матрицы достаточно умеренный, следовательно, можно смело указывать большое количество глубоких деревьев и не бояться слишком долгой работы. А вот процесс подбора количества предикторов (ограничение для деревьев) уже более творческая составляющая. Разрешим каждому дереву использовать все предикторы.


import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier

sns.set(style = 'ticks', color_codes = True)

dataset = pd.read_csv(DATASET_FILE_URL)

class_label = dataset.pop('class')
X, Xt, y, yt = train_test_split(dataset, class_label, test_size = .5)

model = RandomForestClassifier(
    n_estimators = 1000,
    max_depth = 100, 
    max_features = 4
).fit(X, y)

print(classification_report(yt, model.predict(Xt)))
pd.Series(model.feature_importances_, index = Xt.columns).plot(kind = 'barh')
plt.show()

'''
             precision    recall  f1-score   support

          0       0.91      0.88      0.89        77
          1       0.89      0.92      0.90        83

avg / total       0.90      0.90      0.90       160
'''


Такой результат нас полностью устраивает. Мы получили подходящий уровень точности, а также узнали степень важности предикторов. Наше мнение подтвердилось — как в старом детективе мы нашли самого главного виновника проблемы.


Ради интереса попробуем и другие алгоритмы машинного обучения, которые способны показать степень важности предикторов. Например, пару дней назад я столкнулся с «более сырым» набором данных, в котором было 55 предикторов, а 40 из них были номинативными. Тогда лучше всего показал себя CatBoost. Мы можем попробовать и его на этом наборе данных, где, кстати, вообще нет номинативных предикторов.


from catboost import CatBoostClassifier

model = CatBoostClassifier().fit(X, y)

print(classification_report(yt, model.predict(Xt)))
pd.Series(model.feature_importances(Xt, yt), index = Xt.columns)

'''
             precision    recall  f1-score   support

          0       0.87      0.90      0.89        73
          1       0.92      0.89      0.90        87

avg / total       0.89      0.89      0.89       160

alpha    15.971408
beta     16.231243
gamma    15.809242
delta    51.988106
'''

Обратите внимание, что я предварительно не выбирал оптимальные гиперпараметры. Использовал его сразу, как вынул из коробки. Для сравнения проделаю аналогичную операцию с XGBoost. Также без предварительной настройки:


import xgboost as xgb

model = xgb.XGBClassifier().fit(X, y)

print(classification_report(yt, model.predict(Xt)))
importance = model.booster().get_score(importance_type = 'gain')
pd.Series(list(importance.values()), index = importance.keys())

xgb.plot_importance(model)
plt.show()

'''
             precision    recall  f1-score   support

          0       0.88      0.92      0.90        73
          1       0.93      0.90      0.91        87

avg / total       0.91      0.91      0.91       160

delta    3.711117
alpha    1.101336
gamma    0.879750
beta     0.659535
'''


Ещё на этапе изучения данных было видно, что линейная сепарабельность возможна, значит, попробуем и логистическую регрессию:


from sklearn.linear_model import LogisticRegression

model = LogisticRegression().fit(X, y)

print(classification_report(yt, model.predict(Xt)))
pd.Series(model.coef_[0], index = Xt.columns)

'''
             precision    recall  f1-score   support

          0       0.92      0.74      0.82        73
          1       0.81      0.94      0.87        87

avg / total       0.86      0.85      0.85       160

alpha   -0.085451
beta    -0.000115
gamma   -0.000402
delta    0.000956
'''

Кроме этого, в задачах анализа поведенческих факторов часто используется алгоритм ближайших соседей. Это связано с тем, что расстояние (например, евклидова метрика) между двумя векторами похожих людей будет близким. Логично предположить, что люди одной группы набирают похожее количество баллов, возможно, формируя несколько кластеров. Напомню, что kNN относится к той категории алгоритмов, которая не умеет показывать степень важности предикторов. В небольших наборах данных можно вручную удалить «подозреваемого», чтобы посмотреть на качество обучения модели без него.


Алгоритм ближайших соседей весьма чувствителен к разной природе данных (и к выбросам), следовательно, аналогично алгоритмам на основе нейронных сетей или методу опорных векторов требует предварительную нормализацию. Именно с неё мы и начнём.


from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

scaler = StandardScaler()

X = scaler.fit_transform(X)
Xt = scaler.fit_transform(Xt)

model = KNeighborsClassifier(n_neighbors = 7).fit(X, y)
print(classification_report(yt, model.predict(Xt)))

'''
             precision    recall  f1-score   support

          0       0.88      0.82      0.85        73
          1       0.86      0.91      0.88        87

avg / total       0.87      0.87      0.87       160
'''

Хочется ещё немного поэкспериментировать. Посмотрим на результат работы алгоритма на основе нейронных сетей.


import tensorflow as tf

def get_train_inputs():
    xr = tf.constant(X)
    yr = tf.constant(y)
    return xr, yr

def get_test_inputs():
    xr = tf.constant(Xt)
    yr = tf.constant(yt)
    return xr, yr

model = tf.contrib.learn.DNNClassifier(
    feature_columns = [tf.contrib.layers.real_valued_column('', dimension = 4)],
    hidden_units = [10, 20, 10],
    n_classes = 2,
    model_dir = 'tmp_dir_tensorflow'
).fit(input_fn = get_train_inputs, steps = 8000)

predictions = list(model.predict(input_fn = get_test_inputs))
print(classification_report(yt, predictions))

'''
             precision    recall  f1-score   support

          0       0.91      0.84      0.87        73
          1       0.87      0.93      0.90        87

avg / total       0.89      0.89      0.89       160
'''

В итоге было выявлено, что по представленному вектору можно с высокой степенью точности назвать правильный класс наблюдения. Наиболее значимым был только один предиктор. Хочу обратить внимание, что мы успешно решили задачу без понимания смысла предикторов. Сейчас ещё не время раскрывать все карты. Ответ нас ждёт только во время повторного анализа данных.


5. Повторный анализ данных


Попробуем решить нашу задачу средствами языка программирования R. На этот раз мы уделим значительно больше внимания предметной области. Если при первом анализе данных мы смотрели на задачу глазами математика-программиста, то сейчас нам предстоит кардинально сменить амплуа. Я же не зря упоминал, что хочу поделиться своим многолетним опытом анализа именно поведенческих факторов.


Сейчас попробуем разрушить множество мифов о мотивации и уверенности. Эх, как наивно написал. А начнём мы анализ с очень предсказуемой операции — загрузим данные из файла и посмотрим на их структуру. На этом этапе мы убедимся, что формальные признаки правильной очистки и подготовки данных присутствуют. Из примера видно, что структура ожидаемая:


dataset <- read.csv(file = '1.csv', header = TRUE, sep = ',')
str(dataset)

'data.frame':   319 obs. of  5 variables:
 $ alpha: int  18 28 30 27 29 30 31 50 27 47 ...
 $ beta : int  7344 6888 6694 5211 9466 3759 7010 6852 6345 6650 ...
 $ gamma: int  6655 7281 5279 3988 2939 2426 4099 2045 4356 7852 ...
 $ delta: int  8697 8178 7006 4856 6952 3113 3176 7262 6676 8688 ...
 $ class: num  1 1 1 0 1 0 0 1 1 1 ...

Чтобы проверить правильность загрузки посмотрим первые несколько наблюдений:


head(dataset, 5)

  alpha beta gamma delta class
1    18 7344  6655  8697     1
2    28 6888  7281  8178     1
3    30 6694  5279  7006     1
4    27 5211  3988  4856     0
5    29 9466  2939  6952     1
'

Узнаем, сбалансированная ли выборка?


table(dataset$class)

  0   1
136 183

Раскрываю первый секрет: предиктор «alpha» — это действительно возраст, который не очень ценный для нас показатель. В исследовании принимали участия люди от 18 лет и до 51 года. Вспомним ещё раз описательную статистику:


summary(dataset)

     alpha            beta           gamma          delta          class
 Min.   :18.00   Min.   : 1930   Min.   :1805   Min.   :2624   Min.   :0.0000
 1st Qu.:24.00   1st Qu.: 5379   1st Qu.:3310   1st Qu.:4012   1st Qu.:0.0000
 Median :28.00   Median : 6405   Median :4327   Median :6237   Median :1.0000
 Mean   :29.42   Mean   : 6451   Mean   :4556   Mean   :6127   Mean   :0.5737
 3rd Qu.:33.00   3rd Qu.: 7556   3rd Qu.:5562   3rd Qu.:7968   3rd Qu.:1.0000
 Max.   :51.00   Max.   :10476   Max.   :8428   Max.   :9682   Max.   :1.0000

Первое объяснение проблемы «неуверенность и мотивация», которое приходит на ум — это последствия неправильного воспитания. Предиктор «beta» измеряет определённые ошибки воспитания (тревожное, унижающие, с обилием гиперопеки). Факт неполной семьи или «слабой роли отца в семье» также учитывается этой метрикой. Посмотрите на его корреляцию с другими предикторами и с меткой класса:


cor(dataset)

          alpha      beta     gamma     delta     class
alpha 1.0000000 0.1456241 0.0867106 0.3604732 0.2655922
beta  0.1456241 1.0000000 0.3337878 0.6225855 0.5552905
gamma 0.0867106 0.3337878 1.0000000 0.5467973 0.3541250
delta 0.3604732 0.6225855 0.5467973 1.0000000 0.7417065
class 0.2655922 0.5552905 0.3541250 0.7417065 1.0000000

Но сильнее всего коррелирует с меткой класса вовсе не «beta», а «delta». Следовательно, если данные достаточно полно отражают реальную картину мира (репрезентативная выборка и правильный процесс сбора информации), то можно высказать предположение о том, что воспитание не самый значимый показатель, но безусловно очень важный. Теперь вспомним различия:


aggregate(. ~ class, dataset, median)

  class alpha   beta  gamma delta
1     0    26 5656.5 3593.5  4176
2     1    29 7072.0 4825.0  7653

Воспользуемся уже знакомым приёмом, чтобы понять зависимость и визуально найти различия. Чтобы лучше осознать изображение необходимо рассматривать его небольшие части, а потом переключать своё внимание на общий план. Так нужно сделать несколько раз, чтобы значительно повысить точность восприятия. К сожалению, большинство информации, которую вы видите дорисовал мозг.


pairs(dataset, col = factor(dataset$class))


Естественно, для понимания распределения той или иной случайной величины мы обязательно посмотрим гистограмму распределения с указанием количества сегментов. Для сохранения разумного числа картинок я покажу только один пример. Отобразить гистограмму можно как встроенными средствами языка программирования R...


hist(dataset$alpha, col = 'red', breaks = 30)


… так и воспользоваться популярными библиотеками:


library(ggplot2)

ggplot(data = dataset, aes(dataset$alpha)) +
    geom_histogram(bins = 30)


Кстати, это очень удобная библиотека с огромным функционалом. Ряд книг и официальная документация подробно описывают все необходимые возможности. Для примера я покажу уже ранее упомянутый метод разделения представителей разных классов на два столбца:


ggplot(dataset, aes(x = alpha, y = beta, color = factor(class))) +
    geom_point(shape = 1) +
    geom_smooth(method = lm) +
    facet_grid(. ~ class)


После предварительного изучения данных самое время воспользоваться алгоритмами машинного обучения. Прежде всего, я хочу посмотреть на результат работы алгоритма Random Forest. Обратите внимание, что я не ограничивал размер деревьев, но указал ограничение на количество предикторов (их 2), по которым будет строится каждое дерево. Ещё я указал, что мне нужно построить 1000 деревьев.


library(randomForest)

model.classification <- randomForest(
    as.factor(class) ~ .,
    data = dataset,
    importance = TRUE,
    mtry = 2,
    do.trace = FALSE,
    ntree = 1000
)

model.classification$confusion
model.classification$importance

varImpPlot(model.classification)

    0   1 class.error
0 128   8  0.05882353
1  20 163  0.10928962

               0          1 MeanDecreaseAccuracy MeanDecreaseGini
alpha 0.02330505 0.01945604           0.02098099         11.57448
beta  0.03914996 0.02020077           0.02812746         29.90205
gamma 0.02095899 0.02036658           0.02044420         17.96225
delta 0.35067468 0.27116144           0.30348320         95.93535


В завершении ещё раз посмотрим на степень значимости предикторов. Теперь уже с помощью алгоритма логистической регрессии, который встроен в язык программирования R. Коэффициенты логистической регрессии помогают выявить важные предикторы (звёздочки рядом отображают значимость).


glmr = glm(formula = class ~ ., data = dataset, family = binomial)
summary(glmr)

Call:
glm(formula = class ~ ., family = binomial, data = dataset)

Deviance Residuals:
    Min       1Q   Median       3Q      Max
-1.7095  -0.4698   0.1224   0.3984   2.7434

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.124e+00  1.422e+00  -6.415 1.41e-10 ***
alpha        3.189e-02  3.396e-02   0.939   0.3477
beta         4.510e-04  1.445e-04   3.121   0.0018 **
gamma       -9.367e-05  1.563e-04  -0.599   0.5490
delta        1.051e-03  1.448e-04   7.257 3.97e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 435.28  on 318  degrees of freedom
Residual deviance: 203.03  on 314  degrees of freedom
AIC: 213.03

Number of Fisher Scoring iterations: 6

В итоге мы смогли в автоматическом режиме найти самую важную метрику, знание которой позволяет с огромной вероятностью правильно выявить проблему. Конечно, поведенческие факторы почти всегда требуют серию экспериментов. Нужно помнить, что высокую эффективность могут показать весьма неожиданные подходы, о которых исследователям сложно догадаться.


А вот и обещанное описание предикторов:


  • alpha — число полных лет по паспортным данным.
  • beta — результат ответа на 35 вопросов (у разных вопросов разное количество баллов), предназначенных для выявления различных ошибок воспитания. Чем выше значение метрики, тем более остро выражена проблема.
  • gamma — объединение результатов тестов, которые субъективно оцениваются как малодостоверные (цвета, изображения, логика).
  • delta — результат ответа на 48 вопросов о различных психологических травмах, которые гипотетически должны быть ограничивающим фактором.

Таким образом, если мы будем считать этот набор данных достоверным (если были выполнены два условия: репрезентативная выборка и правильная методика сбора данных), то можно сделать вывод о значимости психологических травм. Именно такие травмы формируют у человека страх, следовательно, человек не готов предпринимать действительно продуктивных попыток менять свою жизнь. А где нет многократных, продуманных и настойчивых попыток, там нет и результатов. Отсутствие желаемых результатов — это внешнее подкрепление своих комплексов, которое снижает самооценку. И так циклически повторяется.


Разумеется, человеческая психика находит некий коридор стабильности или зону комфорта. Выбирается такое состояние не случайным образом, а в соответствии с убеждениями человека. Любопытно и другое наблюдение — изменение убеждений происходит после получения результатов в жизни человека. Очень важно понимать, что мозг учитывает только собственные результаты (например, спортивные достижения и хорошая заработная плата), но не примеры других людей.


6. Выводы


Психология прочно ассоциируется с чем угодно, только не с математикой или программированием. Однако, эпоха умозрительных заключений постепенно проходит. Современные технологии могут собрать и обработать огромное количество показателей, что позволяет делать выводы не интуитивно, а на основании конкретных фактов.

Комментарии (0)