IBM SPSS Modeler随机森林算法介绍

时间 2019-11-07

标签 ibm spss modeler 随机森林算法介绍繁體版

原文原文链接

在以前的文章《Bagging 或Boosting让你的模型更加优化》中，咱们介绍了能够经过Bagging或Boosting技术，使得模型更加稳定和准确率更高，那么今天要介绍的随机森林算法，自己的算法逻辑已经使用了Bagging技术，来构建多棵树，最终实现构建“森林”的目的。html

首先咱们先来了解下这个算法，记住几个要点就能够：算法

1.在IBM SPSS Modeler中，随机森林构建的每棵树，使用的算法是C&RT，关于C&RT算法的介绍能够参考以前的文章《IBM SPSS Modeler算法系列------C&R Tree算法介绍》；数据库

2.使用Bagging,每构建一棵树，都是经过随机选择样本数据来构建（有放回的）；架构

3.除了使用Bagging技术，对使用的输入指标，也随机选择。好比说一共有20个输入指标，每选完一次样本数据后，会再随机选择其中的10个指标来构建树。jsp

4.最终的预测结果，会综合前面构建的决策树经过投票的方式获得最终的预测结果，若是是数值型的预测，则是取平均值作为最终的预测结果。分布式

5.在IBM SPSS Modeler中，随机森林算法不只支持传统的关系型数据库，好比DB二、Oracle、SQL Server等经过ODBC可链接的数据库，也支持Haoop分布式架构的数据，它能够生成MapReduce或者Spark，放到Hadoop平台上去执行，从而提高整个计算效率。oop

那么接下来，咱们来看下在IBM SPSS Modeler的随机森林算法实现客户的流失预测，能给咱们呈现出什么样的结果。性能

首先，咱们建立数据流文件，以下图：大数据

Step1:链接数据源Excel文件，文件内容以下：优化

Step2:类型节点设置影响因素及目标，以下图：

Step3:选择随机森林算法，并使用默认参数设置生成模型。

该面板主要涉及到模型构建和树增加两方面的参数，包括如下内容：

构建的模型数量：即构建多少棵树；
样本大小：是每次随机选择的样本占原来的百分比，若是是1的话，表明每次选择的样本数据与原来的数据量同样，若是是0.9，则选择原来的数据量的90%做为的样本数据，在处理大数据集时，减小样本大小能够提升性能。
是否须要处理不平衡数据：若是模型的目标是标志结果（例如，流失或不流失）比率很小，那么数据是不平衡数据而且模型所执行的 Bootstrap 采样可能会影响模型精确性。要提升准确性，请选中此复选框；模型随后会捕获所需结果中的更大比例部分并生成更好的模型。
使用加权采样选择变量：缺省状况下，每一个叶节点的变量是使用同一律率随机选择的。要将加权用于变量并改进选择过程，请选中此复选框。
最大节点数：指定容许各个树中存在的最大叶节点数。若是下一次分割时将超过此数字，那么树增加将在进行拆分以前中止。
最大树深度：指定根节点下方的最大叶节点级别数；即，样本进行递归拆分的次数。
最小子节点大小：指定拆分父节点以后必须包含在子节点中的最小记录数。若是子节点包含的记录数少于您输入的数目，那么不会拆分父节点。
指定要用于拆分的最小预测变量数：若是是构建拆分模型，请设置要用于构建每一个拆分的最小预测变量数。这防止拆分建立太小的子组。
当准确性没法再提升时中止构建：要改进模型构建时间，请选择此选项，以在结果的准确性没法提升时中止模型构建过程。

在高级面板中，考虑到对样本数据选择的质量要求，该算法也涵盖了数据准备的内容。

数据准备可设置的参数包括：

缺失值最大百分比指定容许任何输入中存在的缺失值的最大百分比：若是该百分比超过了此数字，那么将从模型构建中排除此输出。
排除单个类别多数超过如下值的字段指定单个类别能够在某个字段中具备的最大记录百分比：若是任何类别值表示的记录百分比高于指定值，那么将从模型构建中排除整个字段。
最大字段类别数：指定字段中能够包含的最大类别数。若是类别数超过了此数字，那么将从模型构建中排除此字段。
最小字段变化：若是连续字段的变异系数小于您在此处指定的值，那么将从模型构建中排除此字段。
分箱数：请指定要用于连续输入的均等频率分箱数。可用选项包括：二、四、五、十、20、2五、50 或 100。

Step4:生成客户流失分析模型。

在生成的模型结果里面，会包括对输入指标的重要性排序，以下图：

模型结果中，也会包含在生成的这些树中，最频繁出现的规则集，包括决策规则内容、类别、准确性等内容。这些规则集能够协助咱们作一些业务解读。

Step5:能够经过表格查看预测结果。

Step6:经过分析节点查看模型准确率。

慧都控件网超级促销月，全场6折起，豪礼抢不停>>>

截止时间：2016年11月30日

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服！

客服热线：023-66090381