2020年数学建模国赛C题Demo【准确率只有61%,仅供参考】
MPai下载连接:www.mpaidata.com机器学习
关注公众号:【万灵数据】能够看不少不少建模资料噢ide
附件数据下载:https://mpaidata.lanzoui.com/iC1kAgk03ba学习
讲解视频:https://www.bilibili.com/video/BV1154y1C7ZC?from=search&seid=8443983732512492584ui
改进策略:编码
1,调整模型参数(效果微小)spa
2,扩充特征指标(效果中等)设计
3,扩充样本数量(效果卓越)视频
思路以下:blog
该题目可以使用评分卡(量化)+机器学习解决递归
可使用MPai数据科学平台 量化分析-AHP或熵权法 与监督机器学习-分类解决
C题 中小微企业的信贷决策
在实际中,因为中小微企业规模相对较小,也缺乏抵押资产,所以银行一般是依据信贷政策、企业的交易票据信息和上下游企业的影响力,向实力强、供求关系稳定的企业提供贷款,并能够对信誉高、信贷风险小的企业给予利率优惠。银行首先根据中小微企业的实力、信誉对其信贷风险作出评估,而后依据信贷风险等因素来肯定是否放贷及贷款额度、利率和期限等信贷策略。
某银行对肯定要放贷企业的贷款额度为万元;年利率为4%~15%;贷款期限为1年。附件1~3分别给出了123家有信贷记录企业的相关数据、302家无信贷记录企业的相关数据和贷款利率与客户流失率关系的2019年统计数据。该银行请大家团队根据实际和附件中的数据信息,经过创建数学模型研究对中小微企业的信贷策略,主要解决下列问题:
(1) 对附件1中123家企业的信贷风险进行量化分析,给出该银行在年度信贷总额固定时对这些企业的信贷策略。
问题能够简单理解为,对123家企业的信贷风险进行量化(将定类数据转化为定量数据),而后给出怎么对这些企业进行评级与分配信用贷款。
咱们能够看到上图,这是银行已经对这些企业打的信用评级与确认出来的是否违约,咱们须要作的就是把目前所能拿到的数据转化一个定量的数据用于评价信贷风险,而后根据这个比例来按进行分配贷款。
到这里,你们应该知道要解决什么问题了,那怎么去作这件事情呢?
这里我给你们提出一种解决方案:
Step1:对数据进行缺失值和异常值处理;
(可经过MPai数据科学平台【特征工程—数据清洗—缺失值处理】、【特征工程—数据清洗—异常值处理】)
Step2:对【是否违约】创建特征工程,以特征工程为X,以【是否违约】为Y, 创建一个信誉评级分类模型,特征工程的里的字段能够是,【信誉评级】,
(1,须要转化为数值标签,可经过MPai数据科学平台【特征工程—数据清洗—数据标签转化】
2,onehot编码,可经过MPai数据科学平台【特征工程—数据清洗—独热编码】处理)
对于【进项发票信息】,能够构造特征【金额】,【税额】,【价税合计】,【发票状态】这些明面上的指标,也能够是【对企业代号进行分组,拿到的总金额、平均金额、中位数金额】,【对企业代号进行分组,拿到的总税额、平均税额、中位数税额】,【对企业代号进行分组,拿到的总价税合计、平均价税合计、中位数价税合计】,同时还能够是【对开票日期(日周月年)进行分组,拿到开票的频数(日周月年)】,【累计开票数】,【累计有效发票个数】,【累计无效开票次数】
对于【销项发票信息】,同理与上
同时我么也能够根据企业名称来进行聚类,例如科技公司,地产公司,能够通用词向量聚类,也能够经过关键词进行聚类,这样又多了一个指标,【公司类别】
之后还有【(日周月年)均净收入,净支出】(收入发票减支出发票)
总之,尽量扩充特征工程,就我上面列出来的就有共计50特征,固然,咱们仍是能够尽量地多扩充,先无论这些特征是否存在共线性。
Step3:接着,咱们须要对样本数据进行均衡处理,由于咱们肉眼能够看到【是否违约】存在极大的样本不均衡,这些直接训练一个分类模型会致使模型过拟合,例如我有一百个样本,99个样本是1,那么即便我瞎分类,所有判为1,准确率也是99%,样本均衡能够经过上采样或者下采样
(可经过MPai数据科学平台【特征工程—样本均衡处理】)
Step4:因为构造的特征太多了,咱们须要对特征进行筛选,这里咱们须要减小特征,能够选择诸如主成分分析等降维技术进行数据降维,也可使用递归消除特征法等筛选方法来进行特征筛选,
(1,可经过MPai数据科学平台【特征工程—数据降维处理】,
2,可经过MPai数据科学平台【特征工程—特征筛选处理】)
Step5:准备工做就绪,咱们能够把他丢进一个分类模型进行序列,推荐逻辑回归或者XGBOOST与随机森林,须要对数据进行切分训练,评价指标能够选择F1,能够进行各类自由调参,保证模型的最优
查看模型输出(这里只看几率),咱们能够获得每一个模型的【是否违约_否】的几率,这个几率就能够做为信贷风险的量化得分,而后咱们这里能够进行归一化,而后按比例分配贷款。
以上方法简单粗暴,若是想要更突出的小伙伴可使用评分卡或者AHP模型,这里举例AHP模型,信贷风险的评价指标能够分为三个内容:信誉评级,是否违约,企业流水或收入支出比,咱们能够设计2个分类模型(是否违约),一个回归模型(企业流水或收入支出比),采用AHP构建判断矩阵(用德尔菲法肯定输入,能够不用),而后加权来得出来信贷风险的量化得分
(1,可经过MPai数据科学平台【监督机器学习—分类】,
2,可经过MPai数据科学平台【量化分析—层次分析法】)
(2) 在问题1的基础上,对附件2中302家企业的信贷风险进行量化分析,并给出该银行在年度信贷总额为1亿元时对这些企业的信贷策略。
问题1解决了,问题二不就是从新构建特征工程X,而后把X丢进问题一训练好的模型,能够获得量化结果,按比例便可分配。
这里注意一点,因为附件2没有【信誉评级】,那么在问题1种,咱们不能把【信誉评级】放入特征工程。
(3) 企业的生产经营和经济效益可能会受到一些突发因素影响,并且突发因素每每对不一样行业、不一样类别的企业会有不一样的影响。综合考虑附件2中各企业的信贷风险和可能的突发因素(例如:新冠病毒疫情)对各企业的影响,给出该银行在年度信贷总额为1亿元时的信贷调整策略。
这里要求给出信贷调整策略,缘由是突发因素会对不一样行业、不一样类别的企业会有不一样的影响,例如对互联网行业,新冠病毒疫情是促进的,可是对于旅游业,新冠病毒疫情则致使了其大萧条,所以这里须要分不一样行业来进行调整:
基于企业名的关键词同过问题1的方法能够获得行业的区分,能够经过AHP或者熵值法(须要自行爬取数据)等量化模型对不一样行业构建判断矩阵,获得他们的权重比,而后加权在问题2的信贷风险量化得分上,即为一个比较有理,简单的解决方案。