Кредитные организации естественным образом располагают большими портфелями клиентских кредитов. Большими - в том смысле, что к ним начинают быть применимы законы больших чисел, предельные теоремы, а значит, и аппарат статистики, что делает естественным применение машинного обучения.
Задача разбиения кредитного портфеля на более однородные по качеству кредитов под-портфели встречается в финансах уже давно: так многие десятки лет структурируются и синдицируются студенческие займы, долги по кредитным картам, ипотечные обязательства для продажи инвесторам в виде ABS (Asset Backed Sequrities, или "ценные бумаги, обеспеченные активами"). Ярким примером такой однородной группы ABS являются печально известные subprime MBS (Mortgage Backed Sequrities, или "ценные бумаги, обеспеченные ипотечными обязательствами") – категория самых ненадёжных ипотечных займов, из-за которых разгорелся кризис 2007-2008 годов. MBS сектора кроме subprime: jumbo, prime и alt-A. Для определения к какому сектору относится конкретный ипотечный кредит, используется как правило всего пара признаков (сумма кредита, кредитный рейтинг должника). В этой статье мы рассматриваем задачу разбиения кредитного портфеля с использованием гораздо большего количества признаков: всей информации, которой обладает кредитор.
Для этого будем использовать методы машинного обучения – количественной оценки среднего ожидаемого процента погашения долга. Это выгодно отличается от качественных методик возможностью учитывать и сочетать все имеющиеся данные о клиентах, а не только отдельные признаки как в случае с MBS.
Заметим, что специфика выплат по микро-кредиту в том, что влияние случайных факторов на выплаты огромно, и абсолютно точно предсказать сумму, на которую будет погашен долг, и даже само событие погашения долга - невозможно. Кроме того, вероятность непогашения микрокредита по меркам обычного долгового рынка крайне высока. Так, согласно российскому Национальному бюро кредитных историй, в конце 2022 года более 40% микрозаймов было просрочено на более чем 3 месяца. Заметим, что перед выдачей займа основная часть заёмщиков была признана (с той или иной степенью уверенности) кредитующей организацией благонадёжными, получив достаточный для выдачи займа уровень скоринга. Отсутствие залога означает, что возможна полная потеря всей суммы. Влияние случайных факторов в ещё большей мере проявляется при погашении просроченных микрозаймов. К таким факторам как внезапная смерть должника, решение должника стать или не стать банкротом, взять ли следующий кредит для покрытия предыдущих, выигрыша должником лотереи или каких-либо иных форс-мажорных обстоятельств, добавляется фактор качества работы судов и приставов. Всё это в конечном итоге выражается в невозможности выделить заранее кластеры заёмщиков, которые почти наверняка (в теоретико-вероятностном значении этого словосочетания) погасят займ, или соответственно кластеры, где почти наверняка никто из заёмщиков не произведёт никаких выплат по долгу. Следовательно, моделей, дающих уровни accuracy, precision или recall в 90% и выше в задаче классификации просроченных микрозаймов в принципе не может существовать. Это хорошая новость для самооценки того, кто безуспешно строит модель, пытающуюся спрогнозировать будущее погашение займов, но плохая новость для заказчика моделей: метрики качества любой модели классификации или кластеризации обречены быть низкими в случае портфеля микрозаймов.
Таким образом, для задачи структуризации кредитного портфеля микрозаймов, применимость таких методов машинного обучения как кластеризация, классификация или различные версии деревьев очень ограничена, и не даёт большого эффекта. Важно принять за аксиому то, что
(А): Никакие признаки не позволяют отделить неплательщиков от тех, кто хоть что-то выплачивает, а также не дают возможности предугадать заранее будет выплачен займ или нет.
Аксиома (А) на практике означает, что в каждом кластере, под-портфеле микрофинансовых кредитов, какой бы ни был выделен любой моделью машинного обучения, будет большое число плательщиков и неплательщиков, поэтому любая чрезмерно амбициозная задача точного предсказания выплат заранее неосуществима. График Г1 показывает процент выплаты по каждому займу за год в зависимости от фактора "возраст заёмщика", ситуация примерно похожая для любого другого фактора или их комбинации: зависимость непонятна и кажется отсутствует, выделить группу потенциально "хороших" займов по какому-нибудь фактору сложно. Неужели задача разделения портфеля на разные по выплатам под-портфели неразрешима?
К счастью, нет! Задача решаема, так как нас интересует ожидаемый возврат по под-портфелю, то есть, по большому счёту, предсказание моделью величины возврата по отдельному займу не так важно. Значит, регрессионная модель как нельзя лучше подходит для нашей цели. А так как "ожидаемый возврат" — это на математическом языке ничто иное как математическое ожидание, являющееся линейным функционалом, то нашим методом станет самая простая — линейная — регрессия. При этом нам ничто не мешает производить нелинейные преобразования fm исходных факторов до того, как эту информацию передавать линейной моделиfm — базисная функция фактора m, график Г3 иллюстрирует применение нелинейной (в нашем случае - кусочно-линейной) базисной функции fage к фактору "возраст заёмщика" (age), его влияние на зависимость между фактором и оцениваемой величиной; сравнить с Г2, где показана зависимость оцениваемой величины от фактора "возраст заёмщика" (без применения нетождественной базисной функции).
В рамках регрессии, задача разделения портфеля на под-портфели по средней ожидаемой выплате уже вполне осуществима и реалистична. Итак, выбираем в качестве модели старую добрую мультилинейную регрессию.
График Г2 иллюстрирует нам, что если рассматривать не каждый займ отдельно, а статистически значимую группу, то начинает проявляться зависимость между ожидаемым возвратом и имеющимися данными о нём, на графике Г3 видна уже линейная зависимость между преобразованным нелинейной функцией возрастом и процентом возврата долга:
Модель строилась на портфеле просроченных микрозаймов. Вводные данные X — вся имеющаяся у кредитной организации информация о должнике и займе известная к моменту обращения в суд, а именно:
Личные данные, предоставленные клиентом кредитной организации. Например, на графике Г1 рассмотрен возраст заёмщика в качестве фактора.
Данные о займе: дата, срок, сумма займа и пр.
Данные о взаимодействии с заёмщиком после выдачи кредита: продления, частичные погашения займа, переписка с клиентом и пр.
Данные Федеральной Службы Судебных Приставов (ФССП) об исполнительных производствах должника.
Приближаемая величина y: Процент погашения долга за определённый промежуток времени (для примера рассмотрен промежуток за 1 год).
Результат модели: Оценка процента погашения долга за 1 год
Эта оценка далее используется для упорядочивания займов портфеля: от займа с наибольшим ожидаемым процентом возврата долга до займа с наименьшим ожидаемым процентом возврата долга. Такое упорядочивание ( ) и даёт возможность разделить займы портфеля по группам с разными ожиданиями по выплатам после начала судебных разбирательств с заёмщиками: от самых перспективных с наибольшим ожидаемым моделью средним процентом погашения долга до самых безнадежных займов с наименьшим по мнению модели средним процентом погашения долга. То есть при разбиении займов на K под-портфелей , в наименее перспективном под-портфеле окажутся займы с наименьшим ожидаемым процентом погашения , а в самом перспективном под-портфеле - с наибольшим ожидаемым процентом погашения:
Безусловно, эта методика легко переносится на другие кредитные портфели и может адаптироваться под другие задачи.
Результат
Итак, получив предсказанный моделью процента погашения долга , проверим на тестовой выборке качество предсказания модели.
Если смотреть по каждому отдельному займу, то может показаться, что линейная регрессия мало помогла разобраться с хаосом (смотреть Г4), коэффициент корреляции составил 30%, а равен всего-то 9%:
Однако, на уровне под-портфелей предсказание модели уже обретает смысл. Так, при К=100 под-портфелях, уже видно, что чем выше предсказанный моделью процент, тем как правило выше реальный средний по портфелю процент (график Г5):
При меньшем количестве под-портфелей, К = 10, модель позволяет разбить весь портфель на под-портфели, которые в действительности показали очень точное соответствие предсказанному и полученному значению:
Корреляция между предсказанной величиной и оценкой модели 97,6%, а составляет 94,2%!
ChePeter
Это ложный посыл. Люди это субъекты и представлять их в виде независимых случайных величин весьма сомнительно.
Очередной пример к статье "как не нужно делать data science "
https://habr.com/ru/articles/592389/
Ka_Wabanga
ДатаСаенс, который мы заслужили.
Стань саентологом за 3 дня, Чатгпт напишет код за меня, будешь сидеть на работе без дела полгода, а получать денег много.
RKrop
Думаю, смысл в том, что в микрокредитовании применять индивидуальный подход к каждому заёмщику слишком нерационально, ведь тогда затраты на обслуживание кредитного портфеля превысят доходы от него. Чтобы этот бизнес стал прибыльным, хочешь не хочешь, а нужно группировать заёмщиков в однородные портфели.
ChePeter
Если взять слиток металла, то там атомов тоже очень много.
Но только вот там применяют другую математику.