"Кредит — это система, при которой человек, который не может платить, дает другому человеку, который не может платить, гарантию, что тот может платить."

Чарлз Диккенс

На самом деле одним из важнейших факторов при принятии банком решения о выдаче кредита и условиях кредитного соглашения является оценка кредитоспособности потенциального заемщика, т. е. его способности полностью исполнить взятые на себя обязательства, своевременно погасив кредит и начисленные проценты.

Многие банки при оценке надежности заемщиков используют скоринговые системы, которые дают возможность быстро принять решение о возможности предоставления кредита. Они позволяют оценить кредитоспособность заемщика, основываясь на статистических методах. Методы машинного обучения позволяют в значительной степени автоматизировать эти процессы.

Задача скоринга

Рассматриваемая задача прогнозирования надежности заемщика представляет собой задачу классификации. Классификация — задача разделения множества наблюдений или объектов на группы. Так к примеру клиентов можно разделить на 2 группы: надежные и сомнительные.

Данные

В качестве примера возьмем датасет из kaggle, который содержит информацию о 614 заемщиках. Каждый клиент описывается 12 признаками такими как: семейный статус, пол, количество детей, наличие высшего образования, доход и другие. Целевым признаком является статус платежеспособности клиента.

  • Gender – Пол бинарная переменная мужской или женский;

  • Married – Семейное положение бинарная переменная в браке или нет;

  • Dependents – Количество детей;

  • Education – Наличие высшего образования бинарная переменная есть или нет;

  • Self_Employed – Вид занятости бинарная переменная самозанятый или нет;

  • Applicantlncome – Доход заемщика;

  • Coapplicantlncome – Доход супруга клиента;

  • Loan_Amount – Сумма займа;

  • Loan_Amount_Term – Срок займа;

  • Credit_History – Кредитная история бинарная переменная удовлетворяет или нет;

  • Property_Area – Область проживания номинативная переменная город, посёлок или деревня

  • Loan_Status – Статус заёмщика

Часть датасета
Часть датасета

EDA

Перед обучение модели было сделано:

  • Имеющиеся пропуски в данных были заменены на моду признака для категориальных переменных и на среднее значение для числовых.

  • Все категориальные данные были преобразованы в числовое значения, где каждому классу соответствовало единственное число.

  • Количественные переменные были стандартизированы, то есть все исходные значения набора данных были приведены к набору значений из распределения с нулевым средним и стандартным отклонением, равным 1.

Количество пропусков в столбцах
Количество пропусков в столбцах

Модель

Рассмотрим 4 основных методов: дерево решений, случайный лес, логистическая регрессия, метод опорных векторов.

Дерево решений — это метод представления решающих правил в иерархической структуре, состоящей из элементов двух типов — узлов и листьев. В узлах находятся решающие правила и производится проверка соответствия примеров этому правилу по какому-либо атрибуту обучающего множества.

Случайный лес — это алгоритм классификации, основанный на принципе использования ансамбля нескольких решающих деревьев для достижения ими большей точности. Классификаторы (решающие деревья) обучаются независимо друг от друга. Затем классификаторы независимо друг от друга делают предсказания о входном элементе, и класс, за который проголосовало больше всего классификаторов, становится предсказанием итогового классификатора.

Пример дерева решений
Пример дерева решений

Логистическая регрессия — метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам. Данный алгоритм классификации использует сигмоидную функцию в качестве функции активации и позволяет дать вероятностную оценку принадлежности объекта каждому классу.
Метод опорных векторов (SVM) — алгоритм ищет точки на графике, которые расположены непосредственно к линии разделения ближе всего. Эти точки называются опорными векторами. Затем, алгоритм вычисляет расстояние между опорными векторами и разделяющей плоскостью. Это расстояние называется зазором. Основная цель алгоритма — максимизировать расстояние зазора. Лучшей гиперплоскостью считается такая гиперплоскость, для которой этот зазор является максимально большим.

Пример разделения плоскости
Пример разделения плоскости

Валидация

Для оценки качества модели использовалась точность на тестовой выборке и на кросс-валидации. Точность представляет собой количество верно классифицированных клиентов по отношению к общему числу. Кросс-валидация — это метод формирования, обучающего и тестового множеств для обучения аналитической модели в условиях недостаточности исходных данных или неравномерного представления классов. В основе метода лежит разделение исходного множества данных на k примерно равных блоков, например, k = 5. Затем на k − 1, т.е. на 4-х блоках, производится обучение модели, а 5-й блок используется для тестирования. Для оценки качества кросс-валидация осуществлялась на 5 частях и в итоге бралось усредненное значение.

Кросс-валидация на 5 блоках
Кросс-валидация на 5 блоках

В результате получаем метрики в соответствии с рисунком снизу. Лучший результат показала логистическая регрессия как на тестовой выборке, так на кросс валидации.

Результаты моделей
Результаты моделей

В реальности же такой результат достаточно низкий, так как он не учитывает множество факторов. Для достижения более лучшего результата необходимо учитывать сотни факторов о клиенте и иметь большую выборку. Данная статья является обзорной и показывает возможность применения методов машинного обучения для кредитного скоринга.

Автор: Руслан Янбеков

Комментарии (4)


  1. zaiats_2k
    22.02.2022 20:43

    Жаль что в задачи не входит объяснение неудачливому клиенту почему его отфутболили.


    1. Xander_d
      22.02.2022 20:45

      Это задача намеренно не стоит, т.к. в противном случае облегчает жизнь мошенникам, сужая зону приложения усилий.


  1. Ka_Wabanga
    22.02.2022 22:40
    +1

    За последние 2 дня странным образом появилось две похожих по качеству (совсем не высоком - вы уж простите) и структуре статей про машинное обучение от разных авторов но зарегистрированных примерно в одно и тоже время.

    Можно прямой вопрос? Вы студент и статья на хабре - это часть курсовой работы?

    Другого объяснения у меня нет. Мне грустно видеть столь поверхностный материал.


  1. krabdb
    23.02.2022 17:08

    Ребята, это всё здорово, конечно. А теперь расскажите как защищали эту модель перед ЦБ. Потому что без этого этапа все скоринговые модели в банках в РФ - это сферический конь в вакууме. И это вопрос, который должен стоять первым перед аналитиком перд разботкой модели. У вас есть реальный опыт общения с командами проверяющих из ЦБ и вы в курсе их подходов к оценке заемщиков и ссуд?