评分模型的检验方法和标准&信用评分及实现

评分模型的检验方法和标准一般有:K-S指标、交换曲线、AR值、Gini数等。例如,K-S指标是用来衡量验证结果是否优于指望值,具体标准为:若是K-S大于40%,模型具备较好的预测功能,发展的模型具备成功的应用价值。K-S值越大,表示评分模型可以将“好客户”、“坏客户”区分开来的程度越大。

评分模型的检验方法和标准一般有:K-S指标、交换曲线、AR值、Gini数等。例如,K-S指标是用来衡量验证结果是否优于指望值,具体标准为:若是K-S大于40%,模型具备较好的预测功能,发展的模型具备成功的应用价值。K-S值越大,表示评分模型可以将“好客户”、“坏客户”区分开来的程度越大git

例如,K-S指标是用来衡量验证结果是否优于指望值,具体标准为:若是K-S大于40%,模型具备较好的预测功能,发展的模型具备成功的应用价值。K-S值越大,表示评分模型可以将“好客户”、“坏客户”区分开来的程度越大。算法

信用评分模型介绍(一)

2016-08-28 蒋靓 Larry Jiang Larry的风险模型分享与探讨

引言:对于信用评分模型,不少朋友或多或少有所了解,这里作通常性的介绍,并分享本身的多年从业经验。这边短文主要包括:信用评分模型,自变量的生成、筛选、分档和转换,及经常使用有监督学习模型。数据库

信用评分模型网络

信用评分模型是一种有监督的学习模型(Supervised Learning),数据由一群自变量X和对应的因变量y构成。传统零售信用模型中,X大体分为客户的基本信息(年龄、性别、职业、学位等),财务信息(收入,每个月生活消费,每个月信贷还款额等),产品信息(LTV,信用卡类别,我的贷款用途等),征信信息(前6个月被查询次数,前6个信用卡最大利用率,未结清贷款数等);而通常取值0-1因变量y能够定义为在将来12个月是否出现欠款90天等.dom

经验备注在大数据下,不少互联网公司对我的的评估再也不局限于以上几种信息,而是根据更为普遍的数据源对我的进行更全面的刻画,故有称之为客户画像。数据维度会考虑我的在社会上留下的任何数据,如手机使用行为,理财行为,社交圈,网购行为,旅游行为等等等等。你们的各方面数据其实都在被不一样的公司和不一样的APP收集。。。post

自变量的生成学习

自变量是信用风险的来源,除了考虑直接收集的变量,信用评分建模过程当中每每须要建模人员产生更多的衍生变量。这部分工做要分析人员的直觉、长期经验的积累和数据挖掘技术的应用。你们能够经过京东和支付宝的评分一窥其自变量的维度:芝麻信用分为5个维度:身份特质,履约能力,信用历史,人脉关系,行为偏好;小白信用分也分为5个维度:身份,资产,关系,履约,偏好。大数据

经验备注如今愈来愈多的模型技术被应用于信用模型,可是我的以为不管高级模型仍是初级模型,最为重要的是更普遍的数据和产生更多更具备预测能力的自变量。spa

自变量的筛选设计

自变量一旦丰富了起来,就涉及到有效变量的筛选,大体可根据一下几个原则或方法:变量的直观意义(是否跟y有关),变量的单调性或合理性,将来是否能够获取以便模型可实施,变量的区分能力(IV),变量间相关性(变量聚类),变量缺失率,分档以后的稳定性等等。

经验备注对于区分能力太强的变量,或缺失率很大的变量,不建议直接放入模型,能够考虑作成规则或者作成最后模型的调整。在大数据下,人们常常强调自变量与因变量的相关关系,应用于精准性要求不高的营销模型问题不大。而对于精准度要求极高的信用评分模型,相关关系的应用值得推敲。 

自变量分档和转换

为了保持模型的稳定性,信用模型通常对自变量进行分档,好比根据风险不一样把年龄分红几档。这样每档须要一个值来表明这段的自变量输入,这就是变量的转换,常见的有WOE和Logit转换。经过转换后不只实现了稳定性要求,也克服不一样变量间刻度不统一的问题,还克服回归中缺失值的填充问题。

经验备注若是分档过粗糙,不但会下降单个变量的预测能力,也会形成最终评分集中度太高的问题。

解决方法:能够考虑每档用线性插值来代替常数,也能够寻找更多能区分分数集中样本的自变量放入模型。 

有监督学习模型介绍

目前比较流行的模型主要有如下几种(之后分享会逐一介绍):

  1. Logistic 回归(Logistic Regression)

  2. 决策树(Decision Tree)

  3. 支持向量机(Support Vector Machine)

  4. 人工神经网络(Artificial Neural Network) 

  5. 生存分析模型(Survival Analysis Model)

经验备注除此上述以外,还有些高级方法或算法:集成方法(Ensemble Method)(例如随机森林(Random Forrest),Boosting,AdaBoost),深度学习方法(Deep Learning),随机梯度降低算法(Stochastic Gradient Descent)等。

 

信用评分及实现

一、何为信用评级?

首先,何为“信用”?俗话“有借有还”从道德上对信用进行了定义,而后银行与其客户之间“借贷”的关系,每每较为复杂。一般,银行须要全方位、多角度地去评价客户,确认客户的“信用”,才能放心地把钱“借”出去。

咱们都熟悉支付宝芝麻信用分,它是经过采集我的用户信息,通过加工、计算得出用户的信用得分,固然,分数越高表明信用越好

大数据

这几个维度包含了用户我的基本信息、好友互动信息、信用帐户状况及履约历史、购物及理财等行为偏好等多项内容,经过大数据技术,最终以分数值的形式,造成对用户信用的准确评价。这就是信用评级。

随着数学和统计技术在传统金融行业的普遍应用和推广,银行业也采用了“定量”的形式,多角度分析、判断不一样客户的不一样的信用等级,从而来决定客户可获取的授信额度、首付额度或利率优惠程度等,以科学手段准确地计量客户的“信用”,从而避免因借贷双方信息不一致而引起的信用风险损失。

二、信用评级的基础:数据

现现在,早已不是拨打算盘手工记帐的年代,社会上任何活动都拖离不了信息系统,固然,这些信息系统中,也无时不刻地记录着你的全部行踪,这就是所谓的“数据”。对这些数据的存储、清洗、加工,都为银行对客户信用评级提供了健全、丰富的信息来源;基于此,银行以大数据技术进行分析和计算,从而准确地对客户进行信用评价。

银行进行客户信用评级的数据来源于银行内部系统产生的数据或外部的数据,如图示:

大数据

内部数据

从客户的第一次开户开始,其与银行的每一次交互都将银行的信息系统留存,例如存款、转帐、还信用卡、还贷、销户或购买理财等,每一次活动的时间、方式、地点、帐户、金额、交易对象等等,都完整的保存在银行的数据库中。这些积累的数据,是银行很是宝贵的资产。与客户评级相关的数据,一般包括如下几个方面:

1)客户基本数据:银行经过不一样形式、不一样时间、不一样地点所记录的客户名称、证件编号、联系方式、营收状况、学历、就业状况、客户关联人信息等;

2)贷款或信用卡帐户信息:包括帐户号码、余额、开销户时间、额度、额度调整历史等;

3)交易历史:即贷款放款、还款计划及实际还款、现金提取、信用卡刷卡、还卡、换卡等各种事件的具体时间、地点、方式等详细记录;

4)担保信息:即贷款抵押物基本信息、估值或评级信息,担保人信息等。

除上述外,信用卡或贷款产品的营销活动等数据,也与客户评级有关。

外部数据

外部数据来源普遍,以人行征信数据为例,其包含了客户基本信息,如姓名、性别、证件编号、婚姻状况、联系方式、住址等等;借款人的信用历史,如逾期状况、贷款还没有结清信息、担保信息、异常交易信息等;还有一些我的非银行信息,如住房公积金信息、社保信息等。

目前,各家银行都已经创建ODS或数据仓库等数据平台,其包含的信息能知足银行各条线的业务须要,为开展各种管理、经营决策的提供数据基础。然而,客户信用评级数据做为数据平台的一部分,一般混合于其余数据之中,所以,有必要仅针对信用风险管理或信用评级的须要,面向信用风险管理应用开发,单独创建信用风险数据集市。

大数据

数据来源于各种生产、业务系统,经由数据仓库,进入信用风险数据集市中。风险数据集市则按照上层应用的须要,进行数据的整合和存储。通常来讲,信用风险相关的数据通过拆分、拼装或重组,以主题的形式存储在信用风险数据集市中。一般,包含如下几个主题:

大数据

三、信用评分的实现:模型开发

数据挖掘是从大量的、有噪音的数据中,发现潜在的规律和价值,以辅助提升管理、决策能力。银行经过对外部数据及信贷等业务中产生的数据进行提炼、分析,开发模型,对客户进行信用评分,以服务于信贷管理,加强风险控制能力。

第一步:样本抽取

银行积累的客户评级相关的数据量极其庞大,出于数据处理速度及模型开发效率的考虑,一般抽取必定量的数据做为样本,开发模型。经常使用的样本选择方式有两种,随机抽样和分类抽样。随机抽样较为交单,即随机选择样本,认为样本能够表明总体状况。例如,总贷款帐户数是5000,不良贷款帐户数是100,占比1/50;那么随机抽取100个贷款帐户,其中包含2个不良贷款帐户。而分类抽样,则须要先分类,确认各种样本的数据量,再分别进行随机抽样。例如上述例子中的帐户样本选择,首先据担保状况进行分类,有无担保比例分别为3:2,则再分别随机抽取60个有担保的不良贷款帐户和40个无担保的不良贷款记录。

固然,以上仅为示例,实际状况却每每复杂不少。

第二步:变量选择

明确因变量和自变量。其中因变量为表现变量,即模型的结果“客户信用状况”;自变量为与之相关的因素,它的预测能力决定于它与因变量之间相关关系和逻辑因果关系。一般,与信用等级相关的因素包含客户的学历、工资、年龄、额度使用状况、现金提取次数、还款时间等。

第三步:模型分组

模型分组的意义在于区分不一样行为模型和数理关系,以提升模型预测的精准度。例如,学生和在职人员的还款能力是有差别的,可是某类自变量和坏帐率的表现上,趋势十分类似,因此讲模型分组,将避免相互之间的模型因素的干扰和影响。

第四步:模型设计

影响模型结果的变量很是复杂,所以须要根据单个变量的实际预测能力进行筛选,剔除没有预测能力的变量,以缩小变量的范围。

常见的模型算法有线性回归分析、非线性回归分析、逻辑回归模型、神经网络模型、决策树模型等。在实际的模型选择过程当中,需根据模型性质、分析人员经验等多方面因素综合考量。

第五步:模型检验

模型检验,在于衡量开发的信用评分模型能力。经常使用的检验报告有如下几类:

  1. 交换曲线
  2. K-S指标
  3. 区分度
  4. 拟合度曲线

其中,前三者表现的效果为:“评分越高,则好帐户出现的越多”;而拟合度曲线,则用于对比预测状况与实际状况差别

写在最后

信用评分对银行的经营效益有着重要的做用,信用评分模型应用效果,很大程度上也取决于银行的内部管理及信贷政策。技术和管理相结合,左右开弓,必定是控制客户信用风险的最优方案。

End.

转自:http://www.36dsj.com/archives/75665

相关文章
相关标签/搜索