Нет кредитной истории — не дают кредиты, не дают кредиты — нет кредитной истории. Замкнутый круг какой-то. Что делать? Давайте разбираться.


Привет! Меня зовут Марк, я data scientist в компании Devim. Недавно мы запустили модель для скоринга заемщиков МФК “До Зарплаты”, у которых отсутствует кредитная история. Хочу поделиться опытом поиска данных, особенностями конструирования и интерпретации признаков.



Эта тема разбита на две публикации, в первой я расскажу о процессе поиска и конструирования признаков. Во второй части, о сравнении архитектур моделей, анализе результатов и интерпретации решений скоринга.


Часть первая. Конструирование признаков


Модели машинного обучения основаны на данных, качество и полнота которых является определяющим фактором успеха или неудачи функционирования модели. А что делать, если данных мало? Или если данные не достаточно информативны или не точны? Где найти дополнительную информацию и как её использовать при построении модели? Давайте расскажу как я решил эту проблему.


Факторы для оценки кредитного риска


Кредитный скоринг основывается на анализе характеристик заемщика, связанных с риском невозврата займа. Их можно разделить на общеэкономические и индивидуальные.


Общеэкономические факторы


Экономическая обстановка оказывает серьезное влияние на финансовое и психологическое состояние заемщика. Точнее оценить степень влияния, можно выделив факторы имеющие отношение к заемщику. Условно их разделяют на два уровня:


  • Факторы макроуровня — факторы, которые являются внешними для заемщика. К ним обычно относят ВВП, инфляцию, курс валюты и т.д.
  • Факторы микроуровня — это те, что характеризуют конкретного заемщика, например профессия, отрасль работы, средний уровень заработной платы и т.д.
    Сразу стоит отметить, что общеэкономические факторы служат как дополнительные. По мнению многих исследователей, информация, которая в них содержится, общая и слабо характеризует конкретного заемщика.

Индивидуальные факторы


Индивидуальные факторы содержат самую ценную информацию для скоринговой модели. Их тоже можно разделить на категории:


  • Демографические — возраст, пол, семейное положение и т.д.
  • Финансовые — доходы и расходы, доступ к финансовым ресурсам, наличие финансовых резервов.
  • Психологические — одни из самых информативных. Лучший источник таких данных — кредитная история. Кредитная история характеризует финансовую дисциплину клиента, содержит информацию о способности погашения конкретных сумм, показывает текущую заинтересованность в займе. Если кредитная история не сформирована, приходится искать другие источники информации: соцсети, поведение при заполнении заявки и д.р.
  • Контактная информация — её объем и состав влияют на риск невозврата займа.

Описание набора данных


Набор для обучения модели — 9500 заемщиков, впервые получивших заём в период с мая по декабрь 2018 года. Данные для тестирования — 1500 заемщиков за период с января по март 2019 года.


Временное разделение заемщиков используется по нескольким причинам. Во-первых, такое разделение делает маловероятной утечку информации из будущего. Во-вторых, это позволяет оценить устойчивость модели во времени. В PDL (Payday loan) микрозаймах суммы и сроки малы, в сравнении с другими видами займов, поэтому в качестве целевого признака выбран: просрочка платежей более чем на 15 дней.


Конструирование признаков


Конструирование признаков начнем с более общих — экономических, затем перейдем к индивидуальным.


Из общеэкономических макро-факторов удалось найти только один, стабильно доступный и регулярно обновляющийся фактор — курс рубля. Он доступен на сайте ЦБ за продолжительный период времени (есть возможность выгрузки данных в удобном формате), и главное — ежедневно обновляется. Курс рубля имеет стабильный нисходящий тренд. В необработанном виде такой фактор лучше не использовать. Через определенный промежуток времени значения признака выйдут за рамки попавших в обучающую выборку данных и будут неверно интерпретированы моделью.


Чтобы избежать негативных последствий, преобразуем курс рубля в отношении текущего курса(на момент рассмотрения заявки) к медианному значению за предыдущие 35 дней. Теперь признак характеризует не абсолютное значение курса рубля, а тенденцию(рост, падение, стабильное состояние) в рассматриваемый период. На графике 1 полученные данные. На графике 2 — процент дефолтных клиентов с разбивкой по категориям(падение, стабильность, рост).



График 1. Изменение курса рубля, по отношению к медианному значению за последние 35 дней.



График 2. количество дефолтных клиентов в зависимости от изменения курса.


Из экономических микро-факторов доступны: регион в котором работает заемщик, тип организации, профессия.


На первый взгляд, регион работы относится скорее к индивидуальным факторам, чем к общеэкономическим. Однако есть возможность добавить в данные общеэкономическую информацию через группировку регионов. На сайте росстата доступна информация о различных экономических показателях конкретного региона. Влияющими на вероятность дефолта оказались данные о среднем уровне заработной платы в регионе, стоимости фиксированного набора продуктов и величине суммы просроченных платежей по кредиту на душу населения. Для группировки регионов был выбран алгоритм агломеративной кластеризации. В качестве критерия связи использован метод Варда, который объединяет кластеры так, чтобы прирост дисперсии был минимальным. Получившиеся кластеры данных — на трехмерном графике.



Таблица сгруппированных регионов
1 2 3 4 5 6
Белгородская область Московская область Калужская область Рязанская область Тюменская область Республика Крым
Брянская область г. Москва Республика Карелия Смоленская область Республика Саха (Якутия) г. Севастополь
Владимирская область Республика Коми Архангельская область Тверская область Магаданская область Республика Дагестан
Воронежская область Мурманская область Ленинградская область Тульская область Республика Ингушетия
Ивановская область г. Санкт-Петербург Пермский край Вологодская область Чеченская Республика
Костромская область Камчатский край Свердловская область Калининградская область
Курская область Сахалинская область Красноярский край Новгородская область
Липецкая область Иркутская область Республика Калмыкия
Орловская область Новосибирская область Краснодарский край
Тамбовская область Хабаровский край Астраханская область
Ярославская область Амурская область Ростовская область
Псковская область Республика Башкортостан
Республика Адыгея Республика Татарстан
Волгоградская область Удмуртская Республика
Кабардино-Балкарская Р. Чувашская Республика
Карачаево-Черкесская Р. Кировская область
Республика Северная Осетия – Алания Нижегородская область
Ставропольский край Оренбургская область
Республика Марий Эл Самарская область
Республика Мордовия Ульяновская область
Пензенская область Курганская область
Саратовская область Челябинская область
Республика Алтай Республика Бурятия
Алтайский край Республика Тыва
Республика Хакасия
Забайкальский край
Кемеровская область
Омская область
Томская область
Приморский край

Еще один важный микроэкономический фактор — профессия. На рисунке ниже — данные о доли дефолтных клиентов с разбивкой по профессии из тренировочного набора данных.



На графике отчетливо видна зависимость вероятности дефолта от профессии. Для группировки заемщиков желательно применять один из общепринятых в экономическом сообществе принципов. Разбивка на категории с сайта росстата хорошо соотносится с данными, представленными на графике.


Разделение работников по категориям персонала
По категориям персонала работники подразделяются на руководителей, специалистов, других служащих и рабочих.
  • К руководителям относятся работники, занимающие должности руководителей организаций, структурных подразделений и их заместители (директора, начальники: управлений, отделов, смен и т.п., заведующие: производством, столовой, секцией, складом, прачечной, клубом, общежитием, камерой хранения и др., управляющие, председатели, капитаны, главные бухгалтеры и инженеры, мастера и т.п.).
  • К специалистам относятся работники, занятые на работах, как правило, требующих высшего или среднего профессионального образования: инженеры, врачи, преподаватели, экономисты, бухгалтеры, геологи, диспетчеры, инспекторы, корректоры, математики, медицинские сестры, механики, нормировщики, программисты, психологи, редакторы, ревизоры и т.п. К специалистам относятся также ассистенты и помощники названных наименований специалистов.
  • Другие служащие — это работники, осуществляющие подготовку и оформление документации, учет и контроль, хозяйственное обслуживание, в частности, агенты, архивариусы, дежурные, делопроизводители, кассиры и контролеры (кроме рабочих), коменданты, копировщики технической документации, секретари-машинистки, смотрители, статистики, стенографистки, табельщики, учетчики, чертежники.
  • К рабочим относятся лица, непосредственно занятые в процессе создания материальных ценностей, а также занятые ремонтом, перемещением грузов, перевозкой пассажиров, оказанием материальных услуг и др.


Часто встречающиеся профессии, такие, как водитель, менеджер, бухгалтер и др., могут по-разному характеризовать заемщика, в зависимости от конкретной сферы или типа организации. Например, водитель, работающий в такси и водитель, работающий в администрации города — это совершенно разные заемщики.


Чтобы добавить эту информацию в модель, разделим заемщиков по типу организаций, в которых они работают:


  • Коммерческие организации
  • Государственные организации
  • Индивидуальные предприниматели и самозанятые
  • Неработающие
  • Не указан тип организации

Чтобы проверить, добавляет ли разделение информации, посмотрим на график “доля дефолтных заемщиков сгруппированных по профессиям и типам организаций”.



Обозначение профессий и типов организаций
profession type of work
0 не указано 0 не указано
1 руководители 1 коммерческие
2 специалисты 2 государственные
3 другие служащие 3 ип, самозанятые
4 рабочие 4 не работающие
5 прочее

Из графика видно, что для некоторых профессий существенна разница, в каком типе организации работает заемщик. Неожиданные результаты получаются, когда заемщик указывает, что он не работает, но при этом указывает профессию. Дополнительный анализ данных показал, что такое поведение характерно для пенсионеров.


И последним общеэкономическим фактором, используемым в модели, является день месяца, в который подана заявка на заём. Вероятно, это связано с общепринятыми правилами выплаты заработной платы в России(например 10 и 25). Дни месяца разбиваются на два периода с 9 по 21е число включительно и остальные дни месяца.


Индивидуальные факторы


Демографические


В имеющихся у меня данных, есть всего четыре демографических признака:


  • Возраст заемщика (количество полных лет)
  • Стаж на последнем месте работы (в месяцах)
  • Семейный статус (холост, женат, замужем, гражданский брак, в разводе, не замужем, вдовец/вдова, не заполнено)
  • Количество членов семьи (совместно проживающих с заемщиком)

Финансовые


В данных о заемщиках есть информация о заработной плате и дополнительном доходе. Значение этих факторов часто завышается клиентами, поэтому они не содержат точной информации о финансовом положении заемщика, но позволяют примерно его оценить.


Психологические


У выбранной совокупности заемщиков отсутствуют займы, поэтому основной психологической (поведенческой) информации у нас нет. Но у 90% клиентов есть информация о количестве запросов кредитной истории за год, квартал, месяц, неделю, день, час. Таким образом, можно оценить потребность в займе в текущий момент и потребность в займе в исторической перспективе. Количество заявок на заем, поданное за короткий промежуток, добавляет информации о психотипе заемщика. (подал ли он одну заявку и ждет решения, а затем подает вторую при отказе. В этом случае будет мало займов за последний час, но много за последний день. Или заемщик подает заявки в разные организации и ждет решения от всех сразу.)


Контактная информация


При подаче заявки заполнение собственных контактных данных обязательно. Также желательно предоставление контактных данных двух близко знакомых людей. Что позволяет сформировать два дополнительных бинарных признака:


  • заполнен или нет контакт 2
  • заполнен или нет контакт 3

В итоге получаем следующие признаки:


  1. Изменение курса рубля, числовой признак
  2. Регион места работы, категориальный признак (6 категорий)
  3. Профессия, категориальный признак (5 категорий)
  4. Тип организации, в которой работает заемщик, категориальный признак (5 категорий)
  5. День месяца, в который подана заявка, бинарный признак — попадает в интервал с 9-е по 21-е число или нет
  6. Количество запросов кредитной истории за:
    • час
    • день
    • неделю
    • месяц
    • квартал
    • год
  7. Семейный статус, категориальный признак (8 категорий)
  8. Количество членов семьи, числовой признак
  9. Стаж на последнем месте работы, числовой признак
  10. Возраст заемщика, числовой признак
  11. Ежемесячный доход, числовой признак
  12. Дополнительный доход, числовой признак
  13. Заполнен или нет контакт 2, бинарный признак
  14. Заполнен или нет контакт 3, бинарный признак

Все перечисленные выше данные экономически обоснованны и легко собираемы. Несмотря на то, что они не несут в себе полной информации о заемщике, на их основе можно построить экономически эффективную и работающую модель.


О процессе выбора архитектуры и о получившихся результатах я расскажу в следующей статье.
Надеюсь, было интересно и полезно.


Паненко Марк, Devim

Комментарии (58)


  1. old_bear
    03.06.2019 17:21
    +2

    МФК “До Зарплаты”

    Это где берёшь 20 тысяч рублей кредита и через месяц отдаёшь 29 тысяч? Или через год 44 тысячи?
    Пишите ещё, обязательно.


    1. Elmot
      03.06.2019 17:36

      Я вот сижу и удивляюсь отваге (или безумству) автора.


      1. mark-rtb Автор
        03.06.2019 18:23

        Спасибо :)
        На самом деле опасаюсь, что читатели не оценят статью, из за негатива, который появился вокруг МФО в предыдущие годы. Но хочется быть честным, и поэтому мне кажется важным указывать какие именно данные использовались при моделировании.


        1. AlexTOPMAN
          05.06.2019 10:31

          Касательно преамбулы:
          А почему это не дают кредит при именно отсутствии истории, а не её негативности? Ведь, человек мог кредиты не брать не потому что ему их не давали, в потому что он просто живёт всегда в плюсе и никогда их не просил, до поры до времени или пока его не обязала сама ситуация (когда покупка доступна только в кредит, например)? Считаю, что эту неточность в формулировке стоит поправить.


          1. mark-rtb Автор
            05.06.2019 10:51

            Согласен с вами, пустая кредитная история (ки) не единственный фактор мешающий получению кредита. Но если ки есть, пусть и негативная, то это уже другая совокупность заемщиков, и по ним ключевыми будут признаки из ки. А вот когда она пустая, то ту найти факторы для оценки сложно. Про скоринговую модель для таких клиентов я и стараюсь написать.


      1. OnYourLips
        03.06.2019 20:37
        -1

        В чем проблема, если клиента знакомят с условиями заранее и сразу говорят финальные суммы? Есть сервис, и он нужен определенной группе финансово-неграмотных людей. Если сервис работает честно, то какие к нему претензии?


        1. vav180480
          04.06.2019 06:09

          Существуют люди слабые, существуют люди глупые. Мое мнение что нельзя бить слабых и нельзя обманывать глупых, и те и те имеют право на достойную жизнь. Вот про исламский банкинг было бы интересно почитать.


        1. VolCh
          05.06.2019 10:11

          Почему финансово не грамотным сразу? Есть много вариантов, когда кредит на пару дней под пару процентов, или овернайт финансово выгоден. Это без учёта формирования положительной кредитной истории.


    1. Alozar
      03.06.2019 17:46

      Это места где нужно быть сумасшедшим, что брать деньги на месяц, а не на пару дней.


    1. edogs
      04.06.2019 02:01
      +1

      Это где берёшь 20 тысяч рублей кредита и через месяц отдаёшь 29 тысяч? Или через год 44 тысячи?
      Пишите ещё, обязательно.
      Это все равно как автосалон описать в виде места где «берешь кучу железа за 2млн и становишься инвалидом попав в дтп»©
      МФО это где человек может взять 20к и через 3 дня их вернуть заплатив за их использование 200р или 600р вернув через 6 дней если не успел, вместо того что бы ходить по друзьям выклянчивая эту же сумму, а потом рисковать дружбой и нарушенным словом в случае если через 3 дня вернуть не успел. Многим действительно проще не клянчить, а просто взять… а если не успел отдать, то не краснеть, а просто заплатить сверху.

      p.s.: По самой статье — мы бы сказали, что показана белая небольшая верхушка айсберга оценки, которая показывается органам, когда надо объяснить как оценивается заемщик. Желательно со ссылками на СМИ, мол так все и происходит, для чего и публикация. Сами в кредитной теме с 2007 года, разрабатывали сервис онлайн кредитования, работал пока все не дозарегулировали так, что мелкому бизнесу там стало нечего ловить и как по нам — описанные авторам критерии оценки теряются на фоне погрешности настолько, что практического смысла в плане оценки заемщика не имеют вообще.

      Но у 90% клиентов есть информация о количестве запросов кредитной истории за год, квартал, месяц, неделю, день, час. Таким образом, можно оценить потребность в займе в текущий момент и потребность в займе в исторической перспективе. Количество заявок на заем, поданное за короткий промежуток, добавляет информации о психотипе заемщика. (подал ли он одну заявку и ждет решения, а затем подает вторую при отказе. В этом случае будет мало займов за последний час, но много за последний день. Или заемщик подает заявки в разные организации и ждет решения от всех сразу.)
      Вот только достаточно подать заявку где-нибудь на кредитый продукт, как количество запросов из 0 сразу станет штук 20, т.к. Вас сразу начнут пробивать несколько банков и куча мфо на предмет выгодности всучить кредит. Абсолютно типичная ситуация.


      1. mark-rtb Автор
        04.06.2019 08:58

        Спасибо за поддержку и за развернутую, конструктивную критику!
        Действительно, после вступления в силу 1 января изменений о микрофинансовой деятельности, рынок сильно меняется. Но может это и к лучшему? Возможно микрофинансы начнут воспринимать более позитивно? Надеюсь на это.
        Эта статья описывает построение модели только для клиентов с пустой КИ. Конечно модели для заемщиков с сформированной кредитной историей или для постоянных клиентов, содержат намного больше факторов. И эти факторы устойчивые и предсказательно сильные.
        Но если этот заем первый для клиента, то больше факторов просто негде взять. Есть множество статей про использование соц сетей но тут проблема с использованием данных. Нужно чтобы клиент согласился на обработку информации содержащейся у него на страничке.
        Я сейчас работаю над второй частью статьи. Там покажу цифры по оценке заемщиков.
        Вы правы на счет сильного шума в данных, но все же они позволяют выделить сегмент клиентов, выдавать займы которым экономически целесообразно.


  1. DrunkBear
    03.06.2019 17:32

    Мне кажется, в модели забыты 2 важных вещи: праздники и цены на товары первой необходимости.
    И как вы работаете со 152-ФЗ? Получали свидетельство оператора данных?


    1. mark-rtb Автор
      03.06.2019 17:44

      Спасибо за конструктив. Цены на товары первой необходимости учитывались при группировке регионов. Праздники сложно учесть, так как данные собраны за небольшой период. Нужно хотя бы два три года, чтобы такой фактор оценить.
      Со 152-ФЗ все как положено.


      1. Materializator
        04.06.2019 09:30

        Это хорошо, что вы соблюдаете федеральный закон, за повторное нарушение которого деятельность может быть приостановлена.

        Расскажите, пожалуйста, остаются ли у вас персональные данные гражданина, отозвавшего разрешение на обработку персональных данных?


        1. mark-rtb Автор
          04.06.2019 09:45

          Если гражданин добропорядочный, и нет необходимости в использовании персональных данных для осуществления правосудия, то не остаются.


          1. Materializator
            04.06.2019 09:48

            Уже неплохо. В зависимости от вашей оценки гражданина вы порой соблюдаете ФЗ.
            А из архивных копий вы же тоже удаляете персональные данные?

            Я к чему клоню — мне кажется, что МФО не любят больше РКН. И тут подружить жабу с гадюкой будет довольно интересно.


            1. mark-rtb Автор
              04.06.2019 10:05

              мне кажется, что МФО не любят больше РКН. И тут подружить жабу с гадюкой будет довольно интересно.


              Не совсем понятно, что вы имеете ввиду.
              Может расскажите более развернуто?


    1. BlinOFF
      03.06.2019 19:27

      объясните пожалуйста, как праздники могут повлиять на то отдаст человек кредит или нет?


      1. mark-rtb Автор
        03.06.2019 19:51

        Скорее всего этот фактор не будет обладать большой предсказательной силой.
        Но может дать небольшой прирост в показателях.
        Дело в том, что в праздники увеличивается доля высокорисковых клиентов. Люди берут заём, не оценивая возможность возврата. И некоторые заёмщики, которые поддавшись праздничному настроению возлагают на себя неоправданные обязательства, допускают просрочку или не имеют возможность вернуть заем полностью.


        1. VolCh
          05.06.2019 10:15

          Это с одной стороны. С другой из-за праздников часты сбои в графиках выплаты зарплаты.


          1. mark-rtb Автор
            05.06.2019 10:53

            Точно подмечено.
            Особенно влияют наши любимые зимние и весенние каникулы, по 7-10 дней. :)


  1. tema_sun
    03.06.2019 17:36
    +2

    Нет кредитной истории — не дают кредиты, не дают кредиты — нет кредитной истории. Замкнутый круг какой-то. Что делать?


    Продолжать! Продолжать не брать кредиты, особенно микро.


  1. tvr
    03.06.2019 17:42
    +1

    Профессия -«Стрелок», это кто?
    Профессиональный стрелок сигарет или денег до получки?


    1. mark-rtb Автор
      03.06.2019 17:50

      Это воинская профессия.
      Стрело?к — первичная воинская должность военнослужащего в формированиях Вооружённых Сил Российской Федерации


  1. Accounter
    03.06.2019 21:50

    Также желательно предоставление контактных данных двух близко знакомых людей.

    Это незаконно.
    Можно, правда дать левые контакты. Big data это не увидит :)


    1. mark-rtb Автор
      03.06.2019 22:03

      Заполнение контактной информации является добровольным.
      Заемщик понимает, что указывая дополнительную контактную информацию он повышает свои шансы на одобрение займа. Поэтому поля часто заполнены.


      1. Accounter
        04.06.2019 11:07

        Заполнение контактной информации является добровольным

        Это не имеет значения, т.к. дополнительные контакты — это не контакты заемщика.

        К примеру, Иванов приходит брать заем и оставляет свои контактные данные, а также добровольно предлагает МФК записать контакты своих двух друзей Петрова и Сидорова.
        Так вот, МФК нарушит закон, если запишет контакты Петрова и Сидрова, т.к. они не давали МФК своего согласия на обработку их персональных данных (ПД).

        МФК может записать только контакты Иванова, т.к. он даст свое согласие на обработку своих ПД.

        Если когда-нибудь, ненароком, МФК позвонит Петрову или Сидорову, то они могут потребовать удалить свои ПД в базе МФК, а также подать жалобу в госорган (Роскомнадзор вроде?) на нарушение закона о ПД.


        1. mark-rtb Автор
          04.06.2019 11:18

          Я не юрист и не разбираюсь во всех тонкостях этого вопроса, но думаю вы правы.
          Однако уверен, что хранение и обработка бинарного признака заполнил клиент дополнительные данные или нет, не противоречит закону.
          В любом случае спасибо вам за предостережение.


          1. Sanovskiy
            04.06.2019 11:33

            Если данные третьих лиц не сохраняются и не обрабатываются, а обрабатывается только факт наличия этих данных, то нарушения 152 ФЗ со стороны МФО нет.


        1. edogs
          07.06.2019 02:37

          Не совсем так. Здесь МФО цепляются за два момента позволяющие обходить этот момент.
          Во-первых, в форме заявки обычно написано, что заемщик предоставляет данные Иванова с его согласия и/или по его поручению.
          Во-вторых, есть нюанс — «телефон и фио его владельца» это ПД, а вот «телефон и фио человека с которым по нему можно связаться» уже не ПД.


  1. sagaan
    04.06.2019 12:26

    Курс рубля имеет стабильный нисходящий тренд. В необработанном виде такой фактор лучше не использовать. Через определенный промежуток времени значения признака выйдут за рамки попавших в обучающую выборку данных и будут неверно интерпретированы моделью.


    И не только поэтому. Time series почти всегда коррелирует с другим time series, если в них есть тренд.

    Такие признаки, как пол, возраст, семейное положение, наличие детей не используете?


    1. mark-rtb Автор
      04.06.2019 12:43

      Большое спасибо. Описал эти признаки и забыл вынести в итоговый список (исправил)
      Пол не используем, с оглядкой на Базель III, думаю и у нас со временем что то похожее будет.
      Наличие детей на прямую не используется, вместо него используется количество совместно проживающих членов семьи.


  1. thornni
    04.06.2019 12:56

    1. Профессии: контролер — указано дважды на графике.
    2. Профессии: директор (по вашему же описанию) является подклассом класса руководитель, но вынесен в отдельную категорию.
    3. Профессии: на графике не приведена шкала по оси ординат. Если же показатели даны относительные, то указаний на это в тексте нет. Шкала в идеале и должна быть относительной, так как мы не можем гарантировать одинаковое количество представителей разных классов профессий.
    4. Профессии: категория специалист. Специалист-медик и специалист-разработчик это принципиально разные зарплаты, в отличие от медсестры частной клиники и государственной, например. Такая категория малоинформативна.

    5. Кластеризация. Согласно визуализации — сомнительна. Или пробовать другие виды визуализации, или не показывать ее результаты совсем (если результаты кластеризации таки принесли прирост в предсказании). В таком виде она не информативна.

    6. Курс рубля. Хорошо, что он не абсолютный. Но был ли поиск других вариантов, перед использованием указанного? Почему не отношение курса прошлого месяца к текущему? Или не разность? Также покажет тенденцию и ее величину. Иногда в моделях полезно использовать несколько вариантов одновременно. Если использовали и это не дало результатов, хотелось бы видеть это в тексте.

    7. Курс рубля. Визуализация дефолта. График не информативный. Единственный вывод, который можно сделать из него, не перечитывая формулировку величины измерения, это то, что при стабильном курсе рубля дефолт минимален. Но что происходит при изменении курса? Надо несколько раз перечитать как вы считали, чтобы понять, что нарисовано. И моя цель была понять, как аналитику. Но у бизнеса, который будет смотреть на эту диаграмму, может просто не хватить терпения/навыков, чтобы понять этот график.

    8. Визуализация. Стиль и оформление. Узнаю графики из стандарного матплотлиба (поправьте меня). Здесь очень многое стоит написать, но коммент итак длинный. Если коротко: для целей показать это другим аналитикам и тем более бизнесу, визуализацию всех пунктов так делать не стоило бы.


    1. mark-rtb Автор
      04.06.2019 13:20

      Очень приятно, что вы подробно читали мою публикацию.
      Пункты 1-4:
      Профессии на графике взяты из сырых данных, то есть это самые часто встречающиеся варианты, указанные клиентами. Поэтому возможно проскочили повторения. Перед подачей в модель профессии распределяются по 5 категориям.
      Данные конечно же относительные (количество дефолтных клиентов данной профессии, деленное на общее количество клиентов данной профессии), но конкретные значения на некоторых осях пришлось удалить, коммерческая тайна к сожалению.
      пункт 5: Кластеризация действительно дает прирост показателей. Постараюсь нарисовать более информативный график.
      Пункт 6: Было проверено много вариантов, в статье приводится вариант, дающий максимальный прирост AUC модели. Хотел написать о процессе выбора, но стройного текста не получилось, решил привести конечный результат.
      Пункт 7: Обязательно поправлю график.
      Пункт 8: Вы правы это стандартный матплотлиб.
      В целом спасибо за профессиональный взгляд, постараюсь учесть ваши замечания и сделать публикацию лучше.


      1. thornni
        04.06.2019 13:32

        Профессии на графике взяты из сырых данных, то есть это самые часто встречающиеся варианты, указанные клиентами.

        ИМХО (+практика): на этом этапе уже нужна предобработка и исключение таких вещей. Иначе о информативности не очень можно говорить.
        И уже не к графику, а к сбору данных: лучше, чтобы клиенты выбирали из списка, а не писали от руки. Будут данные чище.

        Данные конечно же относительные (количество дефолтных клиентов данной профессии, деленное на общее количество клиентов данной профессии), но конкретные значения на некоторых осях пришлось удалить, коммерческая тайна к сожалению.


        категории были сравнимого размера? Если нет, то была ли проверка на то, можно ли вообще сравнивать данные из таких категорий? (пример: 1000 врачей и всего 7 ИП-шников. Тогда данные по ИП-шникам брать нельзя.)

        И еще к кластеризации: перед ее выполнением делалась ли оценка на то, есть ли там предварительно подозрение на кластеры? (та же статистика Хопкинса)


        1. mark-rtb Автор
          04.06.2019 15:17

          ИМХО (+практика): на этом этапе уже нужна предобработка и исключение таких вещей. Иначе о информативности не очень можно говорить.
          И уже не к графику, а к сбору данных: лучше, чтобы клиенты выбирали из списка, а не писали от руки. Будут данные чище.

          Согласен с вами. Но изначально данные собирались таким способом. Можно попробовать начать собирать выпадающим списком, нужно оценить не повлечет ли это усложнение заполнения анкеты.

          категории были сравнимого размера? Если нет, то была ли проверка на то, можно ли вообще сравнивать данные из таких категорий? (пример: 1000 врачей и всего 7 ИП-шников. Тогда данные по ИП-шникам брать нельзя.)

          Самая малочисленная категория 73 записи, самая многочисленная 340 записей.
          И еще к кластеризации: перед ее выполнением делалась ли оценка на то, есть ли там предварительно подозрение на кластеры? (та же статистика Хопкинса)

          В этом случае действовал исходя из влияния на показатели модели, экспериментальным путем. Чуть позже сделаю оценку и добавлю в статью, спасибо за замечание.


  1. ilya_pu
    04.06.2019 14:30

    не вдаваясь в суть бизнеса, «докопаюсь» до скользящей медианы. вопроса два: 1) чем был продиктован выбор именно этого показателя? (почему не среднее??? в любом учебник по статистике вы найдете именно сглаживание по средней, медиана — это одно единственное значение, НЕ являющееся типичным для совокупности, соответственно сравнивать с этим значением что-либо — означает привносить в анализ дополнительный шум) и 2) чем объясните пилообразный график? (я могу объяснить его только использованием в качестве базы сравнения медианы).


    1. mark-rtb Автор
      04.06.2019 15:30

      Пробовал оба значения, признак с использованием медианы дает больший прирост показателей, поэтому остановился на нем. Да и медиана более устойчива к выбросам.

      Пилообразный вид, возможно вы правы. Думаете это плохо в контексте скоринга?


      1. thornni
        05.06.2019 06:36

        кстати, а на переобучение как-то проверяли? а то прирост в показателях модели тоже может быть «искусственным улучшением»


        1. mark-rtb Автор
          05.06.2019 08:35

          При обучении модели тренировочную выборку разделял на train test, проверял AUC и F1 на test. Затем проверял эти же метрики на отложенном test сете, который разделен временным промежутком с тренировочным.


          1. thornni
            05.06.2019 08:53

            отложенный тест-сет, отлично) спасибо за ответ


  1. ilya_pu
    04.06.2019 14:33

    и ещё: без коэффициентов корреляции достоверность выводов, сделанных автором в ходе исследования, находится на уровне «радио ОБС». как говорится, «а чем докажешь?»


    1. mark-rtb Автор
      04.06.2019 15:32

      Постараюсь в следующей статье привести убедительную доказательную базу. Надеюсь, получится.


  1. eefadeev
    04.06.2019 14:55

    Привет! Меня зовут Марк, я data scientist в компании Devim. Недавно мы запустили модель для скоринга заемщиков МФК “До Зарплаты”, у которых отсутствует кредитная история.


    Можно было бы написать интереснее. Примерно так: «Привет! Меня зовут Марк, я data scientist в компании Devim. Да-да, Devil Instant Money! Вы всё правильно поняли — я работаю на Сатану и мы выдаём микрокредиты до зарплаты» :)


  1. VolCh
    05.06.2019 12:22

    Вот даже не знаю завидовать ли коллегам, оставшимся в бизнесе. "В наше время" модели, вернее матрицы принятия решений кредитовать или нет, а если да то сколько, были куда проще и формировались аналитика на основе данных из РСУБД, а мы, программисты, их имплементировали. От нас приветствовалось обратная связь, если обнаружили какие-то тренды или, наоборот, какие-то ограничения или разрешения приводили к недооценке или переоценка рисков. Работа со скорингом представляла треть интересных задач, с продуктами вторую, с архитектурой треть. Всего интересных хорошо если половина. С таким скорингом, кажется, интересных задач меньше будет.


    Кстати, ав него можно внести внезапно возникший фактор риска, типа если какой то персональный фактор должен блокировать выдачу? Не ждать, пока научится, что таким людям не давать, а запретить директивно.


    1. mark-rtb Автор
      05.06.2019 14:53

      Кстати, ав него можно внести внезапно возникший фактор риска, типа если какой то персональный фактор должен блокировать выдачу? Не ждать, пока научится, что таким людям не давать, а запретить директивно.

      Вы правы. Это хорошая практика и такие правила существуют. Но их сложно найти и работают они на 1-2% клиентов.


      1. VolCh
        05.06.2019 14:55

        Иногда их искать не надо, они ломятся в реальность каждого. Например, какие-то политические решения. Факторы, которые были незначащими, становятся стоп-факторами. И человеку это становится очевидным почти сразу же как осознает новости.


  1. Accounter
    05.06.2019 13:09
    -1

    Мне кажется, что при таких грабительских процентах какой-либо анализ потенциального заемщика не нужен вообще. Можно просто тупо выдавать всем, никому не отказывая (см. фильм «Всегда говори Да»).
    Один из 100 человек расплатиться полностью — это уже покроет убытки по всем остальным 99. А дальше — поток чистой прибыли начиная со второго расплатившего заемщика.
    Анализ заемщиков, время, оборудование, зарплата дата-сэйтистов… — это все лишние расходы. Всё это нужно убрать. И давать кредиты всем подряд.


    1. DrunkBear
      05.06.2019 13:18

      Завтра же в такую щедрую контору приведут караван помытых бомжей и МФО обанкротится.


      1. Accounter
        05.06.2019 13:32

        Ладно, тогда нужен только один фильтр. Простой.
        Пример простого фильтра: самая прибыльная страховая компания Баффета продает страховки на автомобиль только государственным и муниципальным служащим.


        1. mark-rtb Автор
          05.06.2019 14:51

          С 28 января вступили в силу ограничения от центробанка, которые делают предложенную бизнес модель экономически нецелесообразной. А с 1 Июля вступят в силу новые ограничения. Так что уже сейчас микрозайм это полезный финансовый инструмент, для многих категорий пользователей.


    1. VolCh
      05.06.2019 14:41

      Там не 10000% в день и хорошо если половина платит.


    1. Alozar
      05.06.2019 14:53

      Написано, что вы финансовый аналитик, а такие глупости пишите.


      1. Sanovskiy
        05.06.2019 15:36
        +1

        А аргументировать можете? А то даже интересно стало в чем же глупость.


        1. Alozar
          06.06.2019 10:47

          Мне кажется, что при таких грабительских процентах

          Если не трогать неадекватных коллекторов, а смотреть исключительно на специфику бизнеса МФО по сравнению с кредитом в банке получим следующее:
          1. Суммы очень маленькие. У банка самый минимум по кредиту выше самой высокой суммы в большинстве МФО. Если смотреть на средние суммы кредита, вообще получается разница в 1-3 порядка.
          2. Срок займа катастрофически мал. Помним же про классический срок кредита в 5 лет. или 1825 дней. Даже если рассматривать займ в МФО на 30 дней, что само по себе достаточно много, получается, что займ по сроку будет всего 1.6% от банковского.
          3. Процент займов, когда заёмщик не возвращает деньги гораздо выше. Тут причин несколько, начиная от особенностей контингента, который пользуется услугами МФО, и заканчивая позицией «обману этих уродов и буду молодец».
          При всё этом затраты времени на одного клиента у компании сопоставимы с банковскими. То есть потратив на одного человека те же 20 минут, компания заработает не много длинных денег, а немного коротких.
          Почему для постоянных клиентов или при покупке абонемента делают скидку? Потому что получив суммарно чуть меньше денег, компания получит их гарантированно, а не с какой-то вероятностью. Такая же ситуация тут, слишком много рисков.
          Один из 100 человек расплатиться полностью — это уже покроет убытки по всем остальным 99

          Включаем математику. Чтобы один расплатившийся покрыл убытки от остальных 99, процент по займу должен покрывать тело займа 99 людей. Банально при займе у всех в 1000 рублей, Проценты должен составлять как минимум 1000*99=99000 руб. или 9900%. Причём это только чтобы выйти в ноль и не % годовых, а фиксированный процент независимо от срока займа, например тот же месяц или вообще неделя.
          *SARCASM* Это конечно же менее грабительский процент чем 2 % в день или 780% в год. *SARCASM*


          1. mark-rtb Автор
            06.06.2019 10:56

            Отличный комментарий.
            Хотелось бы добавить, что максимальная сумма начислений тело займа*2.5, с 1 Июля будет тело займа*2, а с 1 января 20го, тело займа*1.5.


          1. Sanovskiy
            07.06.2019 08:24

            Логично. Разве что математика у вас за уши сильно притянута. Так и не понял с какого потолка был взят этот один расплатившийся из ста.


            1. Alozar
              07.06.2019 08:54

              Потому что Accounter изначально написал

              Один из 100 человек расплатиться полностью — это уже покроет убытки по всем остальным 99