Day3监督学习——决策树原理

时间 2019-11-17

标签 day3 day 监督学习决策树原理繁體版

原文原文链接

Day3 机器学习监督学习——决策树原理算法

一.决策树的原理机器学习

1.机器学习中分类和预测算法的评估：函数

　　准确率学习

　　速度测试

　　强壮型：有数据缺失或错误时算法的运行spa

　　可规模性：数量级规模比较大orm

　　可解释性ci

2.决策树(decision tree)it

　　决策树是一个相似于流程图的树结构：其中，每一个内部结点表示在一个属性上的测试，每个分支表明一个属性输出，而每一个树叶节点表明类或类分布。树的最顶层是根节点。数据挖掘

3.熵(entropy)概念：

　　信息比较抽象，度量信息，香农提出了“信息熵”的概念。变量的不肯定性越大，熵也就越大。比特来衡量信息的多少。

4.决策树概括算法(ID3)——Information Gain

　　选择属性判断节点：信息获取量(经过A来做为节点分类获取了多少信息)

　　a.先计算出目标函数的信息熵

　　b.计算每个属性的信息熵

　　c.用目标函数与变量(属性)的信息熵做差，结果最大的属性做为第一个判断节点。不断重复此过程，建立当前节点，增加决策树。其中在处理连续型变量的属性的时候，咱们须要将连续变量给离散化。

此外，还有一些其余的算法，他们有相同的地方，也有不一样的地方。

　　共同点：贪心算法，自上而下。

　　不一样点：属性选择度量方案不一样

5.树减枝叶(避免overfitting)

　　a.先剪枝：分到必定程度再也不分

　　b.后剪枝：彻底先把树建好，在根据必定标准剪叶子。

6.决策树优缺点：

　　优势：直观，小规模数据集有效

　　缺点：在处理连续型变量时很差;类别较多时，错误增长的比较多;可规模性通常。

二.决策树的实现

1.Python机器学习的库：scikit-learn

1.1特性：

　　简单高效地数据挖掘和机器学习分析

　　对全部用户开放，根据不一样需求高度可重用性

　　基于Numpy，SciPy和matplotlib

　　开源，商用级别：得到BSD许可

1.2覆盖问题领域：

　　分类(classification),回归(regression),聚类(clustering),降维(dimensionality reduction)

　　模型选择(model selection),预处理(preprocessing)