Day3 机器学习监督学习——决策树原理算法
一.决策树的原理机器学习
1.机器学习中分类和预测算法的评估:函数
准确率学习
速度测试
强壮型:有数据缺失或错误时算法的运行spa
可规模性:数量级规模比较大orm
可解释性ci
2.决策树(decision tree)it
决策树是一个相似于流程图的树结构:其中,每一个内部结点表示在一个属性上的测试,每个分支表明一个属性输出,而每一个树叶节点表明类或类分布。树的最顶层是根节点。数据挖掘
3.熵(entropy)概念:
信息比较抽象,度量信息,香农提出了“信息熵”的概念。变量的不肯定性越大,熵也就越大。比特来衡量信息的多少。
4.决策树概括算法(ID3)——Information Gain
选择属性判断节点:信息获取量(经过A来做为节点分类获取了多少信息)
a.先计算出目标函数的信息熵
b.计算每个属性的信息熵
c.用目标函数与变量(属性)的信息熵做差,结果最大的属性做为第一个判断节点。不断重复此过程,建立当前节点,增加决策树。其中在处理连续型变量的属性的时候,咱们须要将连续变量给离散化。
此外,还有一些其余的算法,他们有相同的地方,也有不一样的地方。
共同点:贪心算法,自上而下。
不一样点:属性选择度量方案不一样
5.树减枝叶(避免overfitting)
a.先剪枝:分到必定程度再也不分
b.后剪枝:彻底先把树建好,在根据必定标准剪叶子。
6.决策树优缺点:
优势:直观,小规模数据集有效
缺点:在处理连续型变量时很差;类别较多时,错误增长的比较多;可规模性通常。
二.决策树的实现
1.Python机器学习的库:scikit-learn
1.1特性:
简单高效地数据挖掘和机器学习分析
对全部用户开放,根据不一样需求高度可重用性
基于Numpy,SciPy和matplotlib
开源,商用级别:得到BSD许可
1.2覆盖问题领域:
分类(classification),回归(regression),聚类(clustering),降维(dimensionality reduction)
模型选择(model selection),预处理(preprocessing)