Представьте, что вы управляете кредитным портфелем банка: каждый выданный кредит – это ставка на то, что клиент выполнит свои обязательства. Как понять, кто из заемщиков надежен, а кто может не справиться с платежами? Здесь на помощь приходят Probability of Default (PD) модели.

PD-модели – это инструменты, используемые в банковском секторе для оценки вероятности дефолта заемщика в течение определенного периода времени. Они играют важную роль в управлении рисками и кредитной политике банка.

В этой статье я расскажу, как банки используют PD-модели для оценки кредитных рисков, поделюсь основными подходами к их построению и объясню как машинное обучение применяется в их разработке.

Что такое "дефолт" и зачем его предсказывать?

Представьте клиента банка (физическое лицо), который оформил кредит. Ежемесячно он должен вносить фиксированную сумму в установленный срок. При своевременной оплате кредит закрывается, а банк получает доход в виде процентов. Однако не всегда процесс идет гладко: иногда заемщики пропускают платежи или вносят суммы меньше требуемых. Такие случаи называются просрочками. Если с момента последнего неполного платежа проходит несколько месяцев, это называется выходом в n-ю просрочку, где n соответствует количеству месяцев задержки.

Дефолтом считается ситуация, когда заемщик допускает просрочку 90 дней или более (выход в 4-ю просрочку).  Это момент, когда заемщик официально признается неспособным выполнять свои обязательства по погашению кредита пред банком. 

Для банка дефолт клиента – это крайне негативное событие, которое влечет за собой значительные финансовые потери, связанные с невозвратом кредита и дополнительными расходами на взыскание долга. Умение предсказывать такие события — одна из ключевых задач банков.

Для минимизации подобных рисков банки применяют PD (Probability of Default) модели. Эти инструменты анализируют широкий спектр данных, включая финансовое поведение клиента, его кредитную историю и текущую платежеспособность, чтобы спрогнозировать вероятность дефолта и своевременно принять меры.

Behavioral-PD и Application-PD модели

В кредитном риск-менеджменте используются два основных типа PD-моделей: Application-PD модели (аппликативные) и Behavioral-PD модели (поведенческие). Оба типа моделей направлены на оценку вероятности дефолта заемщика, но применяются на разных этапах и для решения различных задач.

Application-PD модели

Application-PD модели используются на этапе рассмотрения клиентской заявки на кредит. Их главная задача — оценить вероятность дефолта заемщика еще до выдачи кредита, опираясь на данные, указанные клиентом в анкете, а также информацию, собранную банком из внешних источников.

Какие данные могут использоваться?

  • Характеристики клиента: возраст, семейное положение, образование и тд.

  • Данные о занятости, уровне дохода, стаже и виде деятельности.

  • Кредитная история и информация об уже открытых кредитах.

Эти модели основываются на статистических методах и алгоритмах машинного обучения. Анализируя исторические данные, они выявляют корреляции между характеристиками заемщиков и их вероятностью дефолта. Результатом анализа становится скоринговый балл, на основе которого банк принимает решение о выдаче кредита или отказе.

Application PD модели позволяют: быстро и объективно оценивать новых клиентов, cнижать риск выдачи кредитов ненадежным заемщикам, cтандартизировать процесс принятия решений по заявкам на кредит.

Behavioral-PD модели

Behavioral-PD (поведенческие) модели применяются для оценки текущих клиентов банка, у которых уже есть кредит. Они анализируют поведение заемщика в процессе погашения кредита и позволяют прогнозировать вероятность дефолта в будущем.

Какие данные могут использоваться?

  • Все данные, используемые в Application-PD моделях (характеристики клиента, данные о занятости, кредитная история).

  • Поведенческие данные после оформления кредита: регулярность и своевременность внесения платежей, остаток задолженности, использование кредитных лимитов, транзакционная активность и другие параметры.

Поведенческие модели отслеживают изменения в поведении заемщика и выявляют сигналы, указывающие на возможное ухудшение его финансового положения. Например, снижение регулярности платежей или рост долговой нагрузки может быть ранним индикатором будущего дефолта.

Behavioral PD модели позволяют: оперативно реагировать на изменения в поведении клиента, оценивать общий уровень рисков по кредитному портфелю банка, выявлять хороших клиентов которых можно больше вовлекать в экосистему банка.

Также Behavioral-PD модели могут использоваться в процессе формировании резервов банка, о котором я рассказал в статье: Машинное обучение и резервы банка: опыт из ФинТеха.

Сравнение Application и Behavioral моделей

Application модели

Behavioral модели

Этап применения

Перед выдачей кредита

В процессе погашения кредита

Данные

Демографические и финансовые

Текущие данные о поведении клиента

Цель

Оценка нового заемщика

Мониторинг текущего заемщика

Результат

Решение о выдаче кредита

Предсказание изменения уровня риска

Таким образом Application модели помогают банкам минимизировать риски еще на этапе принятия решения по заявке, а Behavioral модели позволяют управлять этими рисками на протяжении всего срока кредитного договора.

Принципы построения поведенческих и аппликативных моделей во многом схожи. В этой статье основной акцент будет сделан на Behavioral-PD моделях.

Построение Behavioral-PD модели

Behavioral-PD модель предназначена для прогнозирования вероятности дефолта по каждому выданному кредиту. Проще говоря, её задача — ежедневно, начиная с момента выдачи кредита и до его полного погашения, оценивать вероятность того, что заемщик не выполнит свои обязательства в течение определённого периода времени.

Что означает "в течение определённого периода времени"?

Под этим подразумевается, что модель прогнозирует вероятность дефолта не в неопределённом будущем, а в пределах конкретного временного горизонта. Например, такой горизонт часто составляет 12 месяцев с момента построения прогноза.

Определение временного окна выхода в дефолт стандартизирует метрику, которую мы предсказываем. Горизонт в 12 месяцев — наиболее распространённый вариант, но не единственный. Например, для кредитов с признаками ухудшения качества может строится прогноз на весь срок жизни кредита, вплоть до его закрытия. Однако, в рамках этой статьи мы не будем углубляться с эту сторону.

Формулировка задачи

Таким образом, задача модели заключается в разделении всех кредитов на два класса:

  • "1" — кредит вышел в дефолт в течение 12 месяцев;

  • "0" — кредит НЕ вышел в дефолт в течение 12 месяцев.

Это сводит проблему к задаче бинарной классификации, где модель предсказывает вероятность принадлежности каждого кредита к классу "1", то есть к дефолтным.

Методы и подходы

Бинарная классификация — это классическая задача машинного обучения, для которой существует множество подходов. Однако выбор алгоритма часто определяется требованиями регулятора и аудиторских компаний, которые требуют высокой интерпретируемости моделей.

Несмотря на высокую точность сложных методов, таких как градиентные бустинги или нейронные сети, банки часто используют линейные классификаторы такие как логистическая регрессия из-за их прозрачности и интерпритиуемости. Тем не менее, интерес к более сложным моделям растёт, и в индустрии постепенно прослеживается переход к их использованию.

Обучение модели

Перейдем к построению модели. Что мы ожидаем от прогнозируемых вероятностей?

  • Качество сортировки. Прогнозируемые вероятности должны правильно ранжировать клиентов по риску дефолта. То есть заемщики более склонные к выходу в дефолт должны иметь более высокий PD, чем те, кто, скорее всего, выполнит свои обязательства.

  • Калибровка вероятностей. Прогнозируемые вероятности должны соответствовать реальной частоте дефолтов. Это означает, что для группы клиентов с прогнозируемой вероятностью дефолта, например, 20%, реальная частота дефолтов в этой группе также должна быть около 20%.

Добиться одновременно качественного ранжирования и точной калибровки в рамках одной модели — задача сложная. Основная проблема заключается в том, что уровень дефолтов в одном и том же сегменте клиентов может существенно изменяться за короткие периоды времени под влиянием внешних факторов, таких как экономическая ситуация или изменения в политике банка.

Для решения этой проблемы можно прибегнуть к построению семейства моделей, каждая из которых будет решать отдельные подзадачи.

Например, сначала можно построить сложную "стационарную" модель, обучая ее на большом массиве исторических данных и широком наборе признаков. В эту модель можно включить различные характеристики клиента и кредита, чтобы она могла качественно ранжировать заемщиков по риску дефолта на горизонте 12 месяцев. Цель этой модели — обеспечить стабильное и точное ранжирование.

Далее можно обучить простую "калибровочную" модель, которая будет корректировать вероятности, предсказанные "стационарной" моделью, на основе наиболее актуальных данных. Например, калибровка может выполняться с учетом свежей информации о дефолтах за последние 12 месяцев. Для этого используются наиболее свежие данные, по которым уже известны фактические случаи выхода в дефолт за указанный период. На основе предсказаний "стационарной" модели обучается "калибровочная" модель, где предсказания предыдущей модели выступают единственным признаком. Использование такой модели позволяет улучшить калибровку вероятностей поведенческой модели.

Таким образом можно обучить "стационарную" модель один раз и использовать ее до тех пор, пока она обеспечивает качественное ранжирование. В то же время "калибровочная" модель может обновляться регулярно, чтобы прогнозируемые вероятности оставались точными и несмещенными относительно текущего уровня рисков.

Пример для Логистической регрессии в формулах

Строим "стационарную" модель

Обучаем логистическую регрессию на большом количестве признаков на большой истории. Оптимизируем функционал:

Stationary Model = \sum_{i=1}^N \log\left(1 + exp({-y_i \cdot \langle w, x_i \rangle})\right) → min(w)
  • y_i \in \{-1, 1\} — истинная метка класса ("1" — кредит вышел в дефолт в течение 12 месяцев, "-1" — кредит НЕ вышел в дефолт за 12 месяцев)

  • \langle w, x_i \rangle — скалярное произведение вектора весов w и признаков объекта x_i​- его еще называют логит.

  • N— количество объектов.

Откуда можем получить вероятность классов:

 P(Y = 1 \mid X) = \frac{1}{1 + e^{-\langle w, X \rangle}}

Сторим "калибровочную" модель

Обучаем новую логистическую регрессию, на самых свежих данных где в качестве признака используем только логит из "стационарной" модели:

CalibrateModel  = \sum_{i=1}^N \log\left(1 + exp({-y_i ( w*logit+w_0})\right) → min(w,w_0)

Предсказание вероятностей калбировочной модели уже можно использовать как итоговый прогноз.

 P(Y = 1 \mid X) = \frac{1}{1 + e^{-( w*logit+w_0)}}

Идею применения калибровок можно расширить. Например, если для вашей задачи требуется предсказать вероятность выхода в дефолт не за 12 месяцев, а за 24 месяца или за весь срок жизни кредита, вы можете воспользоваться тем же принципом, что и при создании калибровочной модели. Единственное отличие — выбор таргета, соответствующего вашей задаче.

Отдельная задача, это мониторинг качества таких моделей. Про то как это можно делать я описал в статье: Метрики оценки качества вероятностей в бинарной классификации: опыт из ФинТеха.

Дополнительные аспекты

Сегментация портфеля. При построении PD моделей целесообразно делить портфель на сегменты, для каждого из которых разрабатываются отдельные модели. Это необходимо, поскольку разные типы кредитов и заемщиков имеют разное поведение. Вот классические примеры такого разбиения:

  • Тип продукта: Кредиты на покупку товаров, кредитные карты и ипотека — принципиально разные продукты с различными сроками, суммами и структурой выплат. Для каждого типа требуется своя модель, учитывающая их особенности.

  • Наличие просрочки: Просрочки платежей существенно увеличивают вероятность риска (PD), а поведение заемщиков с просрочками часто отличается от поведения тех, кто выплачивает кредиты своевременно.

Практика показывает, что создание отдельных моделей для крупных сегментов позволяет достичь более точных результатов и лучше учитывать различия в поведении клиентов.

Отставание от реальности. При построении PD-моделей используются исторические данные, для которых требуется время, чтобы "созрел" таргет (например, 12 месяцев в нашем случае). Это приводит к проблеме отставания калибровок вероятностей от актуального уровня рисков. Чтобы минимизировать это отставание, применяются подходы, основанные на использовании событий, которые сильно коррелируют с целевым таргетом, но не так отстают от текущей даты. Эти подходы позволяют обновлять прогнозы вероятностей с учетом более свежих данных.

Заключение

В статье рассмотрены базовые аспекты создания и применения PD-моделей для прогнозирования кредитных рисков. Мы разобрали, как Application-PD модели помогают оценивать новых заемщиков на этапе подачи заявки, а Behavioral-PD модели позволяют отслеживать поведение действующих клиентов и выявлять ранние признаки риска, а также разобрали пример построения Behavioral-PD моедли.

Разумеется, в реальной жизни всё сложнее, и во многих местах я сознательно упрощал детали. Если эта тема вам интересна, приходите в комментарии! Я с удовольствием постараюсь ответить на ваши вопросы!

Другие статьи автора:

Комментарии (2)


  1. sshikov
    08.01.2025 17:52

    Вы похоже неявно предполагаете, что речь о кредитах физлицам. Это стоило бы явно уточнить, потому что модели для юрлиц могут быть сильно другие, например, возможны кредиты под залог или гарантии, и тогда оценивается сам этот залог или скажем гарант, и его вероятность дефолта.


    1. aleksei_terentev Автор
      08.01.2025 17:52

      Да, согласен. Речь идет про кредиты физическим лицам, с юр лицами все устроено иначе. Спасибо!