Day3监督学习——决策树原理

Day3 机器学习监督学习——决策树原理算法

.决策树的原理机器学习

1.机器学习中分类和预测算法的评估:函数

  准确率学习

  速度测试

  强壮型:有数据缺失或错误时算法的运行spa

  可规模性:数量级规模比较大orm

  可解释性ci

2.决策树(decision tree)it

  决策树是一个相似于流程图的树结构:其中,每一个内部结点表示在一个属性上的测试,每个分支表明一个属性输出,而每一个树叶节点表明类或类分布。树的最顶层是根节点。数据挖掘

3.(entropy)概念:

  信息比较抽象,度量信息,香农提出了“信息熵”的概念。变量的不肯定性越大,熵也就越大。比特来衡量信息的多少。

4.决策树概括算法(ID3)——Information Gain

  选择属性判断节点:信息获取量(经过A来做为节点分类获取了多少信息)

  a.先计算出目标函数的信息熵

  b.计算每个属性的信息熵

  c.用目标函数与变量(属性)的信息熵做差,结果最大的属性做为第一个判断节点。不断重复此过程,建立当前节点,增加决策树。其中在处理连续型变量的属性的时候,咱们须要将连续变量给离散化。

此外,还有一些其余的算法,他们有相同的地方,也有不一样的地方。

  共同点:贪心算法,自上而下。

  不一样点:属性选择度量方案不一样

5.树减枝叶(避免overfitting)

  a.先剪枝:分到必定程度再也不分

  b.后剪枝:彻底先把树建好,在根据必定标准剪叶子。

6.决策树优缺点:

  优势:直观,小规模数据集有效

  缺点:在处理连续型变量时很差;类别较多时,错误增长的比较多;可规模性通常。

.决策树的实现

1.Python机器学习的库:scikit-learn

1.1特性:

  简单高效地数据挖掘和机器学习分析

  对全部用户开放,根据不一样需求高度可重用性

  基于NumpySciPymatplotlib

  开源,商用级别:得到BSD许可

1.2覆盖问题领域:

  分类(classification),回归(regression),聚类(clustering),降维(dimensionality reduction)

  模型选择(model selection),预处理(preprocessing)

相关文章
相关标签/搜索