本文首发自 产品经理的人工智能知识库算法
原文地址:《一文看懂随机森林 - Random Forest(附 4 个构造步骤+10 个优缺点)》dom
随机森林是一种由决策树构成的集成算法,他在不少状况下都能有不错的表现。机器学习
本文将介绍随机森林的基本概念、4 个构造步骤、4 种方式的对比评测、10 个优缺点和 4 个应用方向。学习
随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。若是用图来表示他们之间的关系以下:测试
决策树 - Decision Tree人工智能
在解释随机森林前,须要先提一下决策树。决策树是一种很简单的算法,他的解释性强,也符合人类的直观思惟。这是一种基于if-then-else规则的有监督学习算法,上面的图片能够直观的表达决策树的逻辑。rest
随机森林 - Random Forest | RFcdn
随机森林是由不少决策树构成的,不一样决策树之间没有关联。blog
当咱们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每一个决策树会获得一个本身的分类结果,决策树的分类结果中哪个分类最多,那么随机森林就会把这个结果当作最终的结果。图片
优势
缺点
随机森林是经常使用的机器学习算法,既能够用于分类问题,也可用于回归问题。本文对 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四个平台的随机森林算法实现进行对比测试。评价指标包括内存占用、运行速度和分类准确性。
测试结果以下:
测试过程及说明忽略,感兴趣的能够查看原文《随机森林算法 4 种实现方法对比测试:DolphinDB 速度最快,XGBoost 表现最差》
随机森林能够在不少地方使用: