【机器学习之Spark实战 一】基于Spark的随机森林分类算法分析

基于Spark的随机森林分类算法分析 一.随机森林算法原理 随机森林是由多个决策树构成的森林,算法分类结果由决策树的投票结果得到,其属于集成学习中的bagging方法。算法的主要原理如下: 1)   假设为一棵决策树,其中每个决策树的抽样方式为重 抽样,独立抽样次,每次随机抽取个样本,就可组成个训练集数据集,且它们是相互独立同分布的。 2)   单棵决策树的生长原则遵循:每次从数据集的全部特征属性
相关文章
相关标签/搜索