Специалист подобен флюсу: полнота его односторонняя

Козьма Прутков


Банки и предсказания.

Рассмотрим самую простую задачу предсказания поведения, проще некуда,
но весьма распространенную и пользующуюся повышенным спросом в некоторых кругах.

Это задача скоринга в банке. Получить массив параметров, вектор, матрица, куб - это уже на вкус разработчиков, обработать и выдать вероятность возврата средств, если они будут выданы тому, кого описал массив информации.

Упростим её и представим, что в городе есть всего три завода и банк. Ну и жители.
И мы будем применять чистый AI, без примесей, будем принимать решение только на основе предсказания сети, без всякого иного интеллекта и здравого смысла. Это как 96% C2H5OH + 4% H2O и без закуски.

Нужно построить алгоритм предсказания вероятности возврата только на основе AI.
Для DS это рутинная задача. В смысле "предсказать". И не только с помощью регрессии и бустинга, а легко даже с помощью нейронной сети.
Не буду сейчас рассказывать про разные сети. Все они в чем то одинаковые - скормил им данные, они в ответ "дать", "не дать", "послать".

Итак, все заводы выплатили в этом месяце зарплату. Всё хорошо, дело делается, доходы есть и у владельцев и у работников.
И всем сотрудникам этих заводов банк кредиты предоставляет и так несколько раз.
Любой AI научится определять кому, что и сколько.

Но вот настал день Ч и первый завод потерял заказы и зарплату больше платить не будет.
Но банк (банковский AI) продолжает оформлять и выдавать кредиты, ведь нет ни одной просрочки у сотрудников завода.
Через два или три месяца от дня Ч начинаются просрочки и через 4-5 месяцев от дня Ч почти все работники первого завода перестали обслуживать свои кредиты.

Набрав достаточный для обучения датасет, ИИ банка меняет веса и теперь сотрудникам первого завода кредиты не одобряет и банк их не оформляет. Всё, денег нет!
Другой ИИ, уже акционеров завода, принимает решение переуступить права по сотрудникам первого завода коллекторам.
Казалось бы всё правильно, но решение только средствами DS порочно и вот почему.

В день Н первый завод был продан и новые владельцы загрузили его полностью и даже прибавили зарплату. Но ИИ банка по прежнему не одобряет заявки на кредит сотрудников первого завода, у ИИ нет достаточного датасета и нет информации о том, что теперь работники первого завода платежеспособны! И все последние кредиты сотрудников первого завода не обслуживаются.

Ну и далее итератором по заводам - банк разорен, а ведь бизнес-то в порядке!

На первый взгляд решение очевидно - выбрасываем "место работы" из параметров.

Так же выбрасываем место жительства (район, область и т.д), рост, вес, цвет волос и т.п.

( Если девять рыжих пришли и купили квартиру, то десятый купит квартиру с вероятностью 9/10. ! )

Это не бред, если в городе есть клуб рыжих и они там обсудили, то если 9, то там же и 10. А если клуба нет! Но этого не знает никакой ИИ. Нет в матстате такого инструмента определения зависимости из газет. С матстатом набираем знания только из накопленных ошибок !

Не забываем проверить, чтобы в параметрах не были указаны национальность, религия, цвет кожи и т.д.

Опытные банкиры может и про DS что и недопонимают, но такую ситуацию скорее всего не допустят.

А вот неопытный DS предложит смотреть кредитную историю заемщика - если потенциальный заемщик долго и успешно обслуживает свой долг, то можно дать еще (вот тут банкиры, если они читают этот текст, конечно, усмехаются). Сразу скажу это очень плохой критерий.

Если давать только тем, у кого есть кредитная история, то банк прогорит. Просто произойдет естественная убыль клиентов.

Для развития и захвата рынков нужно уметь давать тем, у кого нет истории. У них будущие прибыли банка!

И те, кого отпустил его банк к вам, в ваш банк, наверняка содержат изъян в кредитной истории. Никогда банк не отпустит платежеспособного заемщика, банк знает про него все. Все проблемы, достоинства и недостатки.

И если этот заёмщик пришел к вам, значит ему отказали в его банке. Ваш скоринг заглянув в Бюро радостно сообщает - классный заемщик, ни одной просрочки. Но в том банке точно знают - сырье для бизнеса этого заемщика подорожало, клиентов не прибавилось и т.д. И они его отпускают.

И клиент с отличной кредитной историей из другого банка не очень хороший клиент. Или у него дела плохи, или он проводит арбитраж ставок и выжмет из вас самую удобную для себя ставку, на грани вашей доходности. А потом покажет нулевой оборот )) (Это конечно не про DS, но так оно и есть)

Кредитная история из бюро это плохой критерий для DS. А если у клиента хорошая история в родном банке - тут DS и не нужен банкиру совсем.

Ну а клиент с плохой историей это то же самое, что клиент без истории. Лучше, но не намного.

Так что кредитная история не самый хороший критерий оценки. Как впрочем и любая другая история. В ней нет данных о будущем. Это у физиков - замерил траекторию, внимательно и вдумчиво изучил и теперь знаешь и понимаешь как планеты двигаются. Но и то, до поры до времени. После вдруг оказывается, что без "темной материи" и "темного знания" тоже неточно.

Решение, в основе которого лежит только матстат, в принципе порочно.

Можно конечно придумать костыли - продолжать одобрять заявки некоторым сотрудникам первого завода и ждать, когда они начнут обслуживать кредиты. Но вот только не нужно говорить владельцам банка о таком методе - как идут дела у первого завода они знают и без ИИ и прекрасно могут решить вне рамок DS.

Попытка нарушить основы: "прикладная математика это аксиомы предметной области и аксиомы логики" - приведет к невеселым последствиям.

В данном случае, в скоринге кредитов, постановка задачи должна быть изменена в принципе. Нужно выбрать и добавить аксиомы предметной области. И такие системы есть.

Мне известно, например, что для решения предсказательных задач взрослые дяди начинали мониторить все доступные и, по мере возможности, известные источники информации и пытались оценить их вклад в целевую функцию. Или строили систему описывающую движение информации, почти как термодинамика.

Но и тут есть свои подводные камни, но про это в другой статье.

Комментарии (9)


  1. Markscheider
    04.08.2022 15:02
    +1

    они в ответ "дать", "не дать", "послать"

    Семантическая разница между "не дать" и "послать" от меня ускользает :)


  1. R7R
    04.08.2022 15:19

    Но банк (банковский AI) продолжает оформлять и выдавать кредиты, ведь нет ни одной просрочки у сотрудников завода.


    Сомнительно, чтобы значительное число сотрудников одного завода одновременно оформляло кредиты в одном и том же банке.

    Такое возможно только тогда, когда банк очень крупный и действует в масштабах целой страны. Но в таком случае убытки банка от невозврата кредитов от работников одного завода будут компенсированы за счет других клиентов.
    Поэтому никто в банке не будет отказывать в кредите не по кредитной истории, а по месту работы (которое, в случае проблем, клиент может поменять).

    (о глобальных кризисах речь в статье не идет, их не рассматриваем :)


    1. Markscheider
      04.08.2022 15:46
      +1

      Сомнительно, чтобы значительное число сотрудников одного завода одновременно оформляло кредиты в одном и том же банке

      Такое часто бывает, если в этом банке у предприятия - зарплатный проект


      1. R7R
        04.08.2022 15:56

        Такое часто бывает, если в этом банке у предприятия — зарплатный проект


        Так было лет… цать назад.
        Сейчас же 90% сами выбирают для себя основной банк — в основном, по удобству использования системы «банк-клиент» конкретного банка и имеющимся в ней фичам.

        Благо уже можно самому выбрать, на карту какого банка хочешь получать зарплату или просто привязать карту одного банка к системе «банк-клиент» другого.


        1. Hardcoin
          05.08.2022 05:46
          +1

          Выбрать можно, но значения по умолчанию - великая сила. Поэтому если зарплатный проект у компании есть (а это очень часто), то у 80% сотрудников есть карты одного банка, это можно об заклад биться.


          1. R7R
            05.08.2022 13:05

            но значения по умолчанию — великая сила


            Уже нет.
            Как только пользователь замечает проблему с переводом денег онлайн со своей карты на карту другого банка — он либо уходит в другой банк, либо привязывает карту к онлайн системе другого банка.
            Потрясающе, но функциональность приложений трех крупных банков, которыми я регулярно пользуюсь — различается кардинально (был еще четвертый, там надо было е-токен использовать :)


  1. ademchenko
    05.08.2022 12:40

    Решение, в основе которого лежит только матстат, в принципе порочно.

    Дело в том, что то, что вы описываете как порок это как раз красота и сила статистики. Она как раз в том, что для определения важных свойств системы ей не требуется строить ее детальную модель - то, что вы, как я понимаю, и предлагаете как итог рассуждений в статье.

    К примеру, важно ли то, что дождей в последние пять лет меньше? Классическая инженерия должна построить сложнейшую модель дождей, почему они идут, откуда, что на них влияет. Статистика скажет - да, это важно, различие статистически значимо. Думайте ребята над глобальным потеплением. То есть, когда в Виллабаджо уже будут пировать, лирический герой Вашей статьи в банке все еще будет строить детальную модель заемщика.

    ( Если девять рыжих пришли и купили квартиру, то десятый купит квартиру с вероятностью 9/10. ! )

    Это не бред, если в городе есть клуб рыжих и они там обсудили, то если 9, то там же и 10. А если клуба нет! Но этого не знает никакой ИИ. Нет в матстате такого инструмента определения зависимости из газет. С матстатом набираем знания только из накопленных ошибок !


    Кстати, ровно так и в Вашем примере. Как раз статистика-то и определит, что этот самый клуб рыжих любителей покупать квартиры в городе N с какой-то вероятностью существует без необходимости для Вашего лирического героя бегать по подъездам и салонам в его поисках. Я сейчас, разумеется, не касаюсь специфических технических деталей, что выборка должна быть одинаково распределена и т.п. Если все нужные технические критерии соблюдены, то мат. стат. , не имея детальной модели укажет Вам на закономерность между рыжим цветом волос в данном городе и вероятностью покупки квартиры. "Не имея детальной модели" - это главный посыл и главная сила статистики.
    Далее, вы как-то не научно рассуждаете, хотя блог вроде бы о датасайенсе. Мол, если в городе клуб рыжих, то это не бред, а если там это клуба нет, то вроде как это бред. Это откуда такая уверенность? Вы, раз отвергаете статистику, простите, построили детальную физическую модель происходящего? А, может быть, в этом городе рыжий цвет волос определяется (коррелирует) единственной национальностью, а эта национальность испокон веков занимается бизнесом по сдаче квартир, а для этого им нужно их покупать? И таких вариантов вагон и телегу можно за минуту можно нагенерировать. Статистика их распознает, а Ваш лирический герой на основе видимо "жизненного опыта" будет делать голословные (потому что нет модели и детального исследования) умозрительные заключения о том бред это или нет.

    А то, что вы описали с раззорившимся заводом это называется изменением распределения исходного признака или, по-модному, "Черный лебедь". Даже если зависимость не задана явно, она все равно существует, то есть признак "место работы" в банковской модели на самом деле определяет признак "стабильность получения заработной платы" и, возможно, другие - "частота повышения зарплаты" и т.п. И вот эта случайная величина из "места работы" в "стабильность" поменяла свое распределение. Очевидно, что в случае такого изменения модель перестает работать, как и случае, когда вы в формулу 2+2=4 подставите вместо двоек тройки. Я специально привел такой простой пример, чтобы показать, что вы, в общем, сказали абсолютно тривиальную вещь с которой, в общем, понятно как бороться - постоянно дообучать модель, иметь сбалансированный набор признаков, компенсирующих такие изменения. Например, если добавить частоту обращения сотрудников за кредитом именно из этого завода, то при проблемах с зарплатой эта частота сразу повысится, что понизит вероятность выдачи кредита (если, конечно, в модели эта частота обратно зависима от вероятности выдачи кредита). Чтобы не вдаваться в технические обсуждения, которые могут возникнуть в комментариях, сразу скажу, что, да, я понимаю, что очень часто наличие таких компенсирующих признаков говорит о наличии корреляции между исходными признаками, которые, по-хорошему, должны быть независимы, но в данном случае, я просто пытаюсь за минуту "закостылить" модель с уже не очень хорошо подобранным признаком "место работы". То есть, выдача кредита, конечно, некоторым образом должна зависить от места работы, но не в таком прямом виде, а скорее должна зависить от некоторого независимого (действительно) параметра, который определяет "качество" данного места работы. Например, входным параметром может быть текущая кредиторская задолженность предприятия по заработной плате (вероятно, каким-то образом нормированная по кол-ву сотрудников и т.п., не будем углубляться в технические детали) и тогда вышеописанной автором проблемы модель иметь не будет.

    В общем, скоринговая статистическая модель это не что-то, что вам сделала год назад какая-то сторонняя консалтинговая фирма и потом вы этим пользуетесь10 лет без изменений. Она требует постоянного дообучения и, как и почти во всех моделях, иногда и вмешательства оператора (человека) в ее работу - в случае "Черных лебедей". Ваш пример с обанкротившимся заводом, это, очевидно, не самый страшный Черный лебедь, который мог произойти. Тут, знаете, такие сейчас Черные лебеди, что впору создавать модели предсказания на само существование той или иной кредитной организации. Поэтому, конечно, иногда вмешательство оператора нужно. Это тоже очевидно.

    В общем, вы меня извините, но для статьи с тегом "Data Mining*Машинное обучение*Исследования и прогнозы в IT* " это очень низкое техническое качество материала. Статья целиком и полностью основана на каких-то тривиальных умозрительных заключениях с цепочками if else, описываются слабые плохо продуманные модели, на основе которых делается общее заключение о порочности использования статистики.

    В общем, ни о чем статья. Извините. Но заголовок кликбейтный, я и сам на него, признаюсь, купился. Даже "AI" ни к ночи упомянуто. Отмечу по этому поводу, что даже прекрасная скоринговая модель, отлично переживающая закрытия заводов, основанная на выборе признаков и обучении на их основе в современном понимании (да, мне кажется, что и в любом) не является AI. В связи с этим, чтобы не вводить читателей хабра в заблуждение предлагаю поменять заголовок, убрав оттуда AI, но сохранив кликбейтность. Думаю, отличным вариантом будет "Если бы у бабушки был..., то ей бы дали кредит".



  1. Safarega
    05.08.2022 22:02

    Для развития и захвата рынков нужно уметь давать тем, у кого нет истории. У них будущие прибыли банка!

    И текущая премия менеджерам в виде откатов от клиента, т.к. основной аргумент при отказе в выдаче кредита - отсутствие кредитной истории. Даже компаниям с 20-и летним стажем работы без кредитов.


    1. R7R
      05.08.2022 22:46

      У них будущие прибыли банка!


      Будущая прибыль банка целиком зависит от уверенности будущих клиентов в том, что они смогут вовремя вернуть кредит.
      (кредитная история — это уже следствие того, насколько эта уверенность была обоснованной :)