目录算法
决策树定义学习
如何量化纯度3d
信息熵orm
信息增益blog
信息增益比ci
决策树算法io
决策树(Decision Tree)是一种简单且普遍使用的分类器,一种非参数的监督学习方法,即经过训练数据(训练集)来构建模型的决策规则,能够对未知的数据(测试集)进行决策分类。form
1. 开始,全部记录看做一个节点
2. 遍历每一个变量的每一种分割方式,找到最好的分割点(关键)
3. 分割成两个节点N1和N2
4. 对N1和N2分别继续执行2-3步,直到每一个节点足够“纯”为止
一个分割点能够将当前的全部节点分为两类,若是使得分类后的集合只有一种分类结果,则该集合纯,若是分类后的集合还有许多分类结果,则该集合不纯。
若是一个分割点能够将当前的全部节点分为两类,使得每一类都很纯,这就是一个好分割点。
通常很难找到这样的分割点使分割后每一类都很纯,因此构建决策树采用贪心算法,使分割后纯度差最大的状况做为分割点,那么须要对这个纯度差进行量化。
使用信息熵来衡量这种不肯定度(非纯度),熵越大,越不纯。
经常使用的信息熵1:熵(Entroty)
经常使用的信息熵2:基尼指数(Gini Index)
咱们但愿在分类之后可以下降熵的大小,使之变纯一些,这种分类后熵变小的断定标准能够用信息增益(Information Gain)来衡量,它表示两个信息熵的差值,信息增益越大越佳,区分样本的能力更强,选择信息增益最大的特征属性进行分类最佳。
信息增益公式为:g(D,A) = H(D) - H(D|A)
g(D,A):样本D基于特征A分类后的信息增益
H(D):样本D本来的信息熵
H(D|A) :样本D基于特征A分类后的信息熵
问题:信息增益存在偏向于选择取值较多的特征(即分的类别交多的特征)的问题
改进:引入惩罚机制,对树分支过多的状况进行惩罚,来减小信息增益率失效的概率
信息增益比公式:
惩罚参数InstrinsicInfo计算公式:
1. ID3:在决策树生成过程当中,以信息增益为特征选择的准则。
缺点:ID3用信息增益做为标准,存在偏向于选择取值较多的特征的问题
2. C4.5:在决策树生成过程当中,以信息增益比为特征选择的准则。
改进:相比信息增益,信息增益比引入惩罚机制,对树分支过多的状况进行惩罚,偏向于取值较少的特征
3. CART:对回归树用平方偏差最小化准则,对分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树。