原文连接 https://blog.csdn.net/LuYi_WeiLin/article/details/87907948性能
(八)行为评分卡模型(B卡)的介绍
在信贷业务中,评分卡分为三种:学习
申请评分卡(A卡)
行为评分卡(B卡)
催收评分卡(C卡)
本篇咱们来学习一下行为评分卡(B卡),首先什么是行为评分卡呢,行为评分卡的使用场景以及目的,适用的信贷产品?测试
其中特别注意一下,不适合先息后本的信贷产品,由于每月的违约几率不同,很差预测.net
观察期和表现期
学习行为评分卡以前,要了解一些概念,什么是观察期和表现期,什么是观察点blog
观察期观察的是行为,表现期预测表现好坏产品
P(表现期好坏/观察期行为)ast
这里要注意一下,假如咱们定义表现坏客户为M3+,观察期时间窗口为12个月,则起码要收集12+3个月的数据变量
固然观察点也不宜太长,由于不到MOB的客户,不能进入行为评分卡中,会丢失大量重要数据数据
当此刻的时间知足了MOB可是不知足观察期,也能够构建B卡,可是有一些变量表现效果不怎么好(由于和每一个变量的收集间隔有关,间隔长的变量收集得太少,表现天然不佳)时间
讲完了观察期和表现期,咱们就来说一下信用评分卡经常使用的特征构造,特征构造以前咱们来学习一个定义:时间切片
时间切片
特征构造
通常有如下几类特征
还款率类型的特征
额度使用率类型的特征
逾期类型的特征
这里注意一下,不能用轻度逾期去预测轻度逾期,不能用重度逾期去预测重度逾期,这里的目标变量是DPD(day past due)90,变量能够是DPD60、DPD30等
消费类型的特征(每一笔消费有具体详细能够作)
三方机构(社交数据、出行数据)
下面就来说解一下行为评分卡创建模型的步骤(和申请评分卡差很少)
数据预处理
特征衍生
特征处理与筛选
变量分箱
模型的参数估计(逻辑回归模型)
特征挑选
逻辑回归要求系数为负并且P值要显著,咱们使用外生模型GBDT估计模型重要性
也就是挑选4个GBDT模型最重要的变量进行逻辑回归后,发现其逻辑回归系数为负,以后咱们按照GBDT模型变量重要性降序顺序一个一个往里面加,每加一个,进行一次逻辑回归,发现存在逻辑回归系数为正的,就能够把该变量剔除
添加完全部变量后,逻辑回归结果以下图所示,仍是存在P值不显著状况,单独拿去这些变量一个一个与目标变量进行逻辑回归检验其显著性
因此,咱们使用LASSO再次进行变量挑选
模型的性能测试
几率转换为分数