在以前的文章《Bagging 或Boosting让你的模型更加优化》中,咱们介绍了能够经过Bagging或Boosting技术,使得模型更加稳定和准确率更高,那么今天要介绍的随机森林算法,自己的算法逻辑已经使用了Bagging技术,来构建多棵树,最终实现构建“森林”的目的。html
首先咱们先来了解下这个算法,记住几个要点就能够:算法
1.在IBM SPSS Modeler中,随机森林构建的每棵树,使用的算法是C&RT,关于C&RT算法的介绍能够参考以前的文章《IBM SPSS Modeler算法系列------C&R Tree算法介绍》;数据库
2.使用Bagging,每构建一棵树,都是经过随机选择样本数据来构建(有放回的);架构
3.除了使用Bagging技术,对使用的输入指标,也随机选择。好比说一共有20个输入指标,每选完一次样本数据后,会再随机选择其中的10个指标来构建树。jsp
4.最终的预测结果,会综合前面构建的决策树经过投票的方式获得最终的预测结果,若是是数值型的预测,则是取平均值作为最终的预测结果。分布式
5.在IBM SPSS Modeler中,随机森林算法不只支持传统的关系型数据库,好比DB二、Oracle、SQL Server等经过ODBC可链接的数据库,也支持Haoop分布式架构的数据,它能够生成MapReduce或者Spark,放到Hadoop平台上去执行,从而提高整个计算效率。oop
那么接下来,咱们来看下在IBM SPSS Modeler的随机森林算法实现客户的流失预测,能给咱们呈现出什么样的结果。性能
首先,咱们建立数据流文件 ,以下图:大数据
Step1:链接数据源Excel文件,文件内容以下:优化
Step2:类型节点设置影响因素及目标,以下图:
Step3:选择随机森林算法,并使用默认参数设置生成模型。
该面板主要涉及到模型构建和树增加两方面的参数,包括如下内容:
在高级面板中,考虑到对样本数据选择的质量要求,该算法也涵盖了数据准备的内容。
数据准备可设置的参数包括:
Step4:生成客户流失分析模型。
在生成的模型结果里面,会包括对输入指标的重要性排序,以下图:
模型结果中,也会包含在生成的这些树中,最频繁出现的规则集,包括决策规则内容、类别、准确性等内容。这些规则集能够协助咱们作一些业务解读。
Step5:能够经过表格查看预测结果。
Step6:经过分析节点查看模型准确率。
截止时间:2016年11月30日
更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>
详情请咨询在线客服!
客服热线:023-66090381