从这篇博文开始,我将总结金融风控中的另一个模型:申请评分卡模型。这篇博文将主要来介绍申请评分卡的一些基本概念。安全
本篇博文将以如下四个主题来进行介绍说明:网络
交易对手未能履行约定契约中的义务而形成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性它是金融风险的主要类型。ide
M2:M1的延续,即在未还款的第三个帐单日到第三次帐单的最后缴款日之间性能
信用卡帐单日是指发卡银行每个月会按期对你的信用卡帐户当期发生的各项交易,费用等进行汇总结算,并结计利息,计算你的当期总欠款金额和最小还款额,并为你邮寄帐单,此日期即为帐单日。而还款日则是指信用卡发卡银行要求持卡人归还应付款项的最后日期。测试
简单点说,银行会对你的当期应还款造成帐单并通知你,帐单造成日即为帐单日,同时,银行不会要求你立刻就还款,而是会给你一个缓冲期,一般是20天(具体根据各银行制定标准),该期限截止日即为还款到期日。这20天以内全额还款或是选择信用卡最低还款额方式还款,能够享受免息待遇,但若是逾期,就会计息了。spa
信贷场景中的评分卡htm
反欺诈评分卡、申请评分卡(Application)、行为评分卡(Behavior)、催收评分卡(Collection)blog
①反欺诈评分卡、申请评分卡是在贷前准入环节里面
②申请评分卡用到的大部分是申请者的背景变量,并且这个模型通常也会比较谨慎。
③行为评分卡表示申请者已经获准贷款,已经放出贷款之后,根据贷款人的消费习惯,还款状况等一些信用特征,就是跟踪客户合同开始后的表现,来预估用户逾期或者是违约几率。
④催收评分卡是对已经逾期或者违约的客户,对他进行一个催收评分,严格来说,有三个模型,还款率模型,帐龄滚动模型,失联模型。排序
本篇博文主要讲的是申请评分卡模型。
搜集是否触发坏样本定义的时间窗口,一般6个月~1年
须要对这张图进行一个详细的说明,观察点不必定是哪一天,能够是一段时间内,在某个时间区间内全部申请人,只要他们观察期和表现期相同便可。举例来讲,当一个申请人在2017-7-14号这天来银行申请贷款,银行须要用已有的模型对申请人进行一个申请评分,评估他将来一年(表现期)内违约或者是逾期的几率,而后决定是否放贷。那么这个已有的模型是何时创建的呢?这里咱们假定观察期为三年,由于上面是评估一年因此这里表现期为一年,那么往前推一年为2016-7-14号左右某个时间区间内做为观察点,再往前推三年(即观察期:2013-7-14到2016-7-14),利用这三年全部观察点内申请人一些信息创建模型的观察变量(即特征),而后再日后推一年(即表现期:2016-7-14到2017-7-14),全部在观察点内的申请人在这一年时间内的表现状况来定义违约。而后来训练出一个模型。对2017-7-14号的申请人进行评分。因此申请评分卡模型有着自然的滞后性,须要不断的对其模型进行监控。
立项
数据准备与预处理
银行自有数据和第三方数据
模型构建
假设模型训练集的观察点(即客户的申请时间段)为2016-01到2016-03,那么这个模型的观察期(这里咱们假定为三年)为2013-01到2016-01,模型的表现期(这里咱们假定为一年)为2016-03到2017-03。
模型评估
对照上面的模型构建的时间来,咱们来创建测试集,假定其测试集观察点(即客户的申请时间段)为(2017-04),同理可得观察期,和表现期真实的违约或者逾期与否。这时把模型放在这个测试集上进行测试看看效果如何。这里须要注意训练集和测试集上用户在表现期的表现如何都是基于一个已经发生的时间段上。
模型评估的几个标准在下面会详细说到。
模型部署
新旧模型替换,评分卡的实时性要求没那么高,在银行一般一个月更新一次模型。有些咨询机构可能一天更新一次评分卡模型。
模型监控
跟踪模型各项性能是否发生弱化。
逻辑回归
优势: 简单,稳定,可解释,技术成熟,易于监测和部署
缺点:准确度不高
决策树
优势: 对数据质量要求低,易解释
缺点:准确度不高
其余元模型
组合模型
优势: 准确度高,不易过拟合
缺点:不易解释;部署困难;计算量大
衡量分数预测能力的指标 ,须要一个完整的表现期。看看这个模型能不能把坏样本很好的区分处理。其取值位于-1~1之间。具备滞后性。
若是咱们今天用AR来监控模型的好坏,那么只能是监控模型在一年(这里假定表现期为一年)以前的数据上表现的好坏。
先把样本按分数由低到高排序,X轴是总样本的累积比例,Y轴是坏样本占总的坏样本的累积比例。AR就是等于模型在随机模型之上的面积除以理想模型在随机模型之上的面积。计算中能够用梯形近似逼近曲线下面积来计算,AR越高说明模型区分效果越好。
下图公式中Xk,Yk表明分数的第K个分位点对应的累积总样本及相应的坏样本的比例。设总的坏样本的比例为Bo,令(Xk,Yk)=(0,0)
衡量分数区分能力的指标。
把样本按分数由低到高排序,X轴是总样本累积比例,Y是累积好,坏样本分别占总的好,坏样本的比例。两条曲线在Y轴方向上的相差最大值即KS。KS越大说明模型的区分能力越好。
Bad k和Good k分别表示为分数累积到第k个分位点的坏样本个数和好样本个数,KS计算公式:
衡量分数稳定性的指标
按分数对人群进行分组,令Ri是如今样本中第i组占总样本的百分比,Bi是一段时间后第i个分组占总样本的百分比。PSI取值越小说明分数的分布随时间变化越小。
正确有效的评分卡模型中,低分数的实际逾期率应该严格大于高分段的实际逾期率。咱们将分数从低到高划分为10组,每组的实际逾期率记作r1,r2,r3,…,r10。对全部的(ri,rj)的组合,若是有ri< rj且i< j,或者ri> rj且i> j,则记作一个discordant pair,不然记作concordant pair。其计算公式以下:
Kendall’s Tau越接近1或者等于1,说明逾期率在分数上的单调降低性越明显,反之说明分数变化与逾期率的变化的一致性得不到保证。
迁移矩阵是衡量分数矩阵的指标,对相同的人群,观察在相邻两次监控日期(一周)分数的迁移变化。迁移矩阵中元素Mjk表明上次监控日期分数在第j组中的人群在当前迁移到第k组的几率。实际计算中可把分数平均分红10组,计算这10组之间的迁移矩阵。
传统金融机构+非金融机构
传统金融机构: 传统金融业务的互联网创新以及电商化创新、APP软件等
我的信息 : 学历 性别 收入
负债信息 : 在本金融机构或者其余金融机构负债状况
消费能力 : 商品购买纪录,出境游,奢侈品消费
历史信用记录 : 历史逾期行为
新兴数据 : 人际社交 网络足迹 出行 我的财务
在分类问题中,每种类别的出现几率未必均衡
信用风险:正经常使用户远多于逾期/违约用户
流失风险: 留存客户多于流失客户
下降对少类样本的灵敏性
过采样
欠采样
SMOTE(合成少数过采样技术)
https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149(博主录制,2K超清分辨率)