Ошибка первого и второго рода
Цель банка – заработать деньги. Первый риск, с которым сталкивается кредитная организация — дать кредит заемщику, который допустит дефолт. Дефолт может иметь разные причины, от финансовых трудностей заемщика, и заканчивая фродом.
Для банка это — ошибка первого рода.
Но если банк будет вести жесткую политику, и никому не выдает кредиты, даже тем, кто вернул бы деньги, то банк не заработает на процентах. Отказ в кредите ответственному заемщику – ошибка второго рода.
Для оценки качества принимаемых алгоритмом решений, используется коэффициент Джини (GINI). В экономике и в Data Science коэффициент Gini имеет разную интерпретацию. Для кредитного скоринга он рассчитывается, как
GINI = 2 ROC AUC — 1
Для оценки банковского скоринга используется стандартная ROC AUC кривая!
Рис.1 ROC AUC кривая. Площадь под кривой показывает качество работы алгоритма. Если площадь равна 0.5, то это случайный прогноз (для бинарного классификатора), 1 – идеальный прогноз.
Алгоритмы для скоринга
Особенностью алгоритмов для скоринга, является требование к интерпретируемости. В связи с этим, часто используются линейные модели.
Для максимизации качества имеет смысл использовать композиции деревьев, такие как случайный лес, и XGboost. Для кейсов с большим количеством транзакционных данных, подойдут и DNN архитектуры, но нейросети целесообразно применять только самым крупным кредитным учреждениям.
Применение алгоритмов в кредитных учреждениях чаще обусловлено не максимизацией качества, а требованиями к процессу принятия решения, поэтому убедитесь, что ваша нейронная сеть достаточно интерпретируема, прежде чем выпускать решение в бой!
Параметры, влияющие на риск дефолта
Разберем влияющие параметры на примере решений с соревнования на Kaggle — Home Credit Default Risk, прошедшим год назад.
В наборе 220 параметров.
Рис.2 Распределение дефолтных и возвращенных кредитов.
Ряд изображений взяты из ноутбуков опубликованных усасниками конкурса, более подробно с решениями можно ознакомиться по ссылке.
Источники: 1, 2, 3
Классы несбалансированы, дефолтов меньше чем возвращенных кредитов.
Визуализируем распределения параметров, чтобы определить, имеют ли дефолтные займы отличающееся распределение.
Рис.3 Пример распределения дефолтных и возвращенных кредитов по возрасту.
Из изображения 3 следует, что молодые заемщики имеют больший риск дефолта.
Помимо описанных характеристик заемщика, имеются еще такие параметры как EXT_SOURCE 1,2,3. В этом наборе данных, это параметры полученные от бюро кредитных историй и поставщиков внешних данных. Компания DATA4, в которой я работаю, является примером подобного поставщика, но рассматриваемом наборе наших данных нет. Активными игроками на рынке торговли данными являются сотовые операторы и БКИ.
Построим корреляционную матрицу, чтобы посмотреть, с какими параметрами коррелируют прогнозы внешних поставщиков данных, и как они влияют на качество алгоритма.
Построим распределения по данным внешних поставщиков, и увидим, что они имеют отличия для дефолтных кредитов.
Для большего количества признаков получим следующую картину, которую достаточно сложно интерпретировать, но которая дает целостное представление.
Найдем влияющие на дефолт факторы по feature_importances
Построим диаграмму важности признаков для алгоритма RF.
Что влияет
1) Скоринг от бюро кредитных историй и внешних поставщиков данных, таких как наша компания
2) Возраст и гендер
3) Время, которое прожил заемщик по месту последней регистрации
4) Срок кредита
5) Тип запрашиваемого кредита
6) Процент, который кредит составит от денежного потока и зарплаты клиента
7) Времени использования заемщиком последнего телефонного номера
8) Времени на последнем месте работы, и доля от общего стажа
9) Кредитный денежный поток
10) Сумма кредита
В статье были рассмотрены принципы работы кредитного скоринга, и показаны параметры, которые вносят наибольший вклад в решение о выдачи кредита. Результаты выглядят правдоподобно, чем лучше кредитная история заемщика, чем дольше заемщик работает на одной работе, реже меняете номер телефона и место жительства, и чем меньше доля кредита от располагаемых доходов, тем меньше риск дефолта. Но следует помнить, что результаты построены на данных конкретного кредитного учреждения, и могут не подходить для другого кейса.
datasanta
Статья на обзорную не тянет. Там довольно много подходов и интересных признаков в кернелах. А вы просто вытянули картинку из первого попавшегося кернела с важностью признаков, где скорбалл бюро самый важный признак. Мол покупайте скор балл и будет у вас хорошая модель. Лучше посчитали как падает gini при выкидывани скорбалла бюро из модели. Это бы показало, что балл бюро бесполезен, когда есть информация о кредитах и признаки на них сконструированные
kirillkosolapov Автор
Планирую на эту тему написать еще 1-2 статьи, где рассмотреть тему глубже. Спасибо за идею сделать алгоритм с последовательным исключением ряда признаков, и показать как это влияет на метрики. Обязательно нужно попробовать.
ProRunner
А можно подробнее? Я правильно понимаю, что кредитный скоринг в реальности плохо отражает риск невозврата кредита?
Потому что по идее именно это он и должен отражать, а если это не так, то модель расчета скоринга кредитного бюро никуда не годится.
datasanta
ProRunner, модель расчета скоринга кредитного бюро вполне себе годная и отражает риск. Суть в том, что когда у нас есть данные кредитной истории — информация о платежах, просрочках по предыщущим кредитам, мы можем построить модель не хуже балла бюро, т.к. бюро строит скоринговую модель на этих же данных. Соответственно, если мы строим свою модель на данных бюро (как в этом конкурсе), и добавляем в модель в качестве параметра скор бюро, расчитанный на этих же данных, принципиально никакой новой информации модель не получает. Это та же информация о кредитной истории, но ужатая в один параметр