决策树故名思意是用于基于条件来作决策的,而它运行的逻辑相比一些复杂的算法更容易理解,只需按条件遍历树就能够了,须要花点心思的是理解如何创建决策树。git
举个例子,就好像女儿回家,作妈妈的给女儿介绍对象,因而就有了如下对话:github
妈妈:女啊,明天有没有时间,妈妈给你介绍个对象
女儿:有啊,对方多大了。
妈妈:年龄和你相仿
女儿:帅不帅啊
妈妈: 帅
女儿:那我明天去看看算法
妈妈和女儿对话的这个过程当中,女儿的决策过程能够用下图表示:segmentfault
你可能会认为,这个决策的过程本质上就是对数据集的每个作if--else
的判断,这不很简单吗?那为何还要专门弄一个算法出来呢?测试
不妨能够考虑两点,假如训练数据集中存在无关项,好比如下的例子:spa
10-1 #表示第一项特征是1,第二项特征是0,最后推出的结果是1,如下同理
12-1
05-0
09-0
17-1
……code
显然的,最后结果和第二个特征无关,若是仍要作判断就会增长了损耗。因此在创建决策树的过程当中,咱们就但愿把这些无关项扔掉。对象
第二点,回到妈妈给女儿介绍对象的这个例子,上图是为了方面读者理解,因此按照顺序画出,但事实上,有一个严重的问题,好比说女儿可能不能容忍某个缺点,而一旦对方的性格中具备这个缺点,那么其余一切都不用考虑。也就是说,有一个特征跟最后的结果相关度极高,这时咱们就但愿这个数据出如今根节点上,若是核心条件不知足那就结束遍历这棵树了,避免无谓的损耗。blog
总言言之,决策树第一个是须要从大量的已存在的样本中推出可供作决策的规则,同时,这个规则应该避免作无谓的损耗。游戏
构造决策树的关键步骤是分裂属性。分裂属性值得就是在某个节点处按照某一特征属性的不一样划分构造不一样的分支,其目标是让各个分裂子集尽量地“纯”。尽量“纯”就是尽可能让一个分裂子集中待分类项属于同一类别。这时分裂属性可能会遇到三种不一样的状况:
对离散值生成非二叉决策树。此时用属性的每个划分做为一个分支。
对离散值生成二叉决策树。此时使用属性划分的一个子集进行测试,按照“属于此子集”和“不属于此子集”分红两个分支。
属性是连续值。肯定一个split_point,按照>split_point和<=split_point转成成离散,分别创建两个分支。
构造决策树的关键性内容是进行属性选择度量,属性选择度量是一种选择分裂准则,是将给定的类标记的训练集合的数据划分D“最好”地分红个体类的启发式方法,它决定了拓扑结构及分裂点split_point的选择。
在这里仅介绍比较经常使用的ID3
算法。
从信息论知识中咱们直到,指望信息越小,信息增益越大,从而纯度越高。因此ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。
循序本系列的从工程角度理解算法,而非数学角度理解算法的原则,所以这里只给出信息增益度量的计算方式,若是须要深刻了解其数学原理,请查阅专业资料。
设D为用类别对训练元组进行的划分,则D的熵计算方法为:
其中pi表示第i个类别在整个训练集中出现的几率。
当按照特征A分割后,其指望信息为:
其中Di/D表示每个D在总体训练集占的比例。
而信息增益即为二者的差值:
其中当gain(A)
达到最大时,该特征即是最佳的划分特征,选中最佳特征做为当前的节点,随后对划分后的子集进行迭代操做。
在本专栏的前面的文章描述了基于决策树的五子棋游戏,算是一个基于决策树的应用了。详情请点这里