Рассмотрим, как работают алгоритмы в банковском скоринге, какие метрики используются и какие параметры заемщика влияют на то, выдадут кредит или нет. В статье описывается прошедший конкурс с kaggle по предсказанию вероятности дефолта и приводятся влияющие на риск дефолта параметры.

Ошибка первого и второго рода


Цель банка – заработать деньги. Первый риск, с которым сталкивается кредитная организация — дать кредит заемщику, который допустит дефолт. Дефолт может иметь разные причины, от финансовых трудностей заемщика, и заканчивая фродом.

Для банка это — ошибка первого рода.

Но если банк будет вести жесткую политику, и никому не выдает кредиты, даже тем, кто вернул бы деньги, то банк не заработает на процентах. Отказ в кредите ответственному заемщику – ошибка второго рода.

Для оценки качества принимаемых алгоритмом решений, используется коэффициент Джини (GINI). В экономике и в Data Science коэффициент Gini имеет разную интерпретацию. Для кредитного скоринга он рассчитывается, как

GINI = 2 ROC AUC — 1

Для оценки банковского скоринга используется стандартная ROC AUC кривая!




Рис.1 ROC AUC кривая. Площадь под кривой показывает качество работы алгоритма. Если площадь равна 0.5, то это случайный прогноз (для бинарного классификатора), 1 – идеальный прогноз.

Алгоритмы для скоринга


Особенностью алгоритмов для скоринга, является требование к интерпретируемости. В связи с этим, часто используются линейные модели.

Для максимизации качества имеет смысл использовать композиции деревьев, такие как случайный лес, и XGboost. Для кейсов с большим количеством транзакционных данных, подойдут и DNN архитектуры, но нейросети целесообразно применять только самым крупным кредитным учреждениям.

Применение алгоритмов в кредитных учреждениях чаще обусловлено не максимизацией качества, а требованиями к процессу принятия решения, поэтому убедитесь, что ваша нейронная сеть достаточно интерпретируема, прежде чем выпускать решение в бой!

Параметры, влияющие на риск дефолта


Разберем влияющие параметры на примере решений с соревнования на Kaggle — Home Credit Default Risk, прошедшим год назад.

В наборе 220 параметров.


Рис.2 Распределение дефолтных и возвращенных кредитов.
Ряд изображений взяты из ноутбуков опубликованных усасниками конкурса, более подробно с решениями можно ознакомиться по ссылке.

Источники: 1, 2, 3

Классы несбалансированы, дефолтов меньше чем возвращенных кредитов.

Визуализируем распределения параметров, чтобы определить, имеют ли дефолтные займы отличающееся распределение.



Рис.3 Пример распределения дефолтных и возвращенных кредитов по возрасту.

Из изображения 3 следует, что молодые заемщики имеют больший риск дефолта.

Помимо описанных характеристик заемщика, имеются еще такие параметры как EXT_SOURCE 1,2,3. В этом наборе данных, это параметры полученные от бюро кредитных историй и поставщиков внешних данных. Компания DATA4, в которой я работаю, является примером подобного поставщика, но рассматриваемом наборе наших данных нет. Активными игроками на рынке торговли данными являются сотовые операторы и БКИ.

Построим корреляционную матрицу, чтобы посмотреть, с какими параметрами коррелируют прогнозы внешних поставщиков данных, и как они влияют на качество алгоритма.



Построим распределения по данным внешних поставщиков, и увидим, что они имеют отличия для дефолтных кредитов.

Для большего количества признаков получим следующую картину, которую достаточно сложно интерпретировать, но которая дает целостное представление.





Найдем влияющие на дефолт факторы по feature_importances



Построим диаграмму важности признаков для алгоритма RF.



Что влияет


1) Скоринг от бюро кредитных историй и внешних поставщиков данных, таких как наша компания
2) Возраст и гендер
3) Время, которое прожил заемщик по месту последней регистрации
4) Срок кредита
5) Тип запрашиваемого кредита
6) Процент, который кредит составит от денежного потока и зарплаты клиента
7) Времени использования заемщиком последнего телефонного номера
8) Времени на последнем месте работы, и доля от общего стажа
9) Кредитный денежный поток
10) Сумма кредита

В статье были рассмотрены принципы работы кредитного скоринга, и показаны параметры, которые вносят наибольший вклад в решение о выдачи кредита. Результаты выглядят правдоподобно, чем лучше кредитная история заемщика, чем дольше заемщик работает на одной работе, реже меняете номер телефона и место жительства, и чем меньше доля кредита от располагаемых доходов, тем меньше риск дефолта. Но следует помнить, что результаты построены на данных конкретного кредитного учреждения, и могут не подходить для другого кейса.