还没有整理【风控】互联网金融-构建评分卡模型部分知识点

  1. 模型部署方式:将模型转为PMML文件或者框架、服务器方式作接口调用。
  2. 特色是:笔数多,单笔金额小,数据维度丰富
  3. 信用评分作准入,行为评分作调额,贷中管理,或者提早催收
  4. 催收评分卡,能够预测M1转到M2的几率,M2转到M3的几率,催收回款率等
  5. 观察期与特征变量选择:必定要选择贷前就能获取的特征,通常围绕客户的还款能力、还款意愿、稳定性和多头借贷展开,还要兼顾本身的产品客群定位、用户体验、数据成本。好比产品是农户贷,那么社保、公积金、网银工资流水就是不须要获取的特征。若是产品目标是电商小商户,则电商数据就是很是有用的特征。
  6. 表现期与好坏客户定义:表现期是指放款日期至放款后逾期率开始稳定的时间段。好坏客户根据各信贷产品的应用场景不一样而定,能够经过迁徙率设定(预期五天到M1,M1到M2,…一段时期的迁徙比例来决定y的0 and 1)
  7. 现金贷表现期通常一个月;消金3-6个月;信用卡是12个月
  8. 逻辑回归模型服从的前提假设:

    ①自变量不能相关,即排除自相关性,还有共线性;②变量必定要显著。③变量要独立同分布。服务器

    因此咱们要进行共线性筛查,显著性筛查,相关性筛查,才能选择出入模变量。框架

   9. 逻辑回归建立评分卡模型核心步骤:编码

    a)       变量分箱,能够排除异常值的影响,分法有等宽、等频、人工指定分箱、C4.5决策树、卡方分箱。接口

    b)      WOE编码。做用:排除量纲影响。计算方式是每箱好样本比例与坏样本比例的比值的天然对数。部署

    c)       IV值,又称为信息浓度。计算公式是每箱好样本比例与坏样本比例的差值,再乘以对应的WOE值,通常选择IV>=0.02的变量。产品

    d)      共线性、相关性、显著性检验。自动化

    e)       计算每一个变量对应切分点的分数。Score=A+B*ln(odds),y=logist(p)=ln(p/(1-p))=b+aX=b+coewoe电商

  10. 建模样本:负样本占总样本比例5%以上就行,最好是10%以上。监控

  11. 变量分为连续变量与分类变量的依据是: 连续变量的水平种类在10种以上,分类变量的水平种类在10种如下。变量

  12. 字符型分类变量转整型 为何模型容易调用?        

  13. 字符型分类变量转为数值型方式:哑变量,WOE编码,坏样本率。

  14. 自动化分箱(最优分箱):KS分箱,卡方分箱,决策树分箱。手动分箱:WOE(ln(odds))。对样本集最优,但会忽略可解释性。

  15. 评分卡计算分数公式

  16. 评分卡模型创建完成,须要检验准确性和稳定性,还要监控

  17. 分箱,数据处理,特征衍生,有效性,分数稳定性,变量稳定性,模型调优可能比不上业务上的逻辑变量。

相关文章
相关标签/搜索