任务三 决策树算法梳理

1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
1)熵
在这里插入图片描述
在这里插入图片描述
2)联合熵与条件熵
上面定义了单个随机变量的熵。现在,将定义推广到两个随机变量的情形。由于可将(X,Y)视为单个向量,所以其定义其实并无新鲜之处。
在这里插入图片描述
3)信息增益
在这里插入图片描述
在已知A的情况下,随机变量D的不确定性的减少程度,也就是在我们知道A的情况下获得了多少信息。如果D是数据类别的随机变量,而A是数据某个特征的随机变量,可以想见使得信息增益最大的特征是最好的特征。因为这个特征可以最大程度上减少我们对类别的不确定性。所以在决策树模型中,使用信息增益来进行每一层的特征选择。
参考博客:http://www.javashuo.com/article/p-mnyudrcm-nr.html
4)基尼不纯度
从一个数据集中随机选取子项,度量其被错误的划分到其他组里的概率(即一个随机事件变成它的对立事件的概率)。
计算公式:(fi为某概率事件发生的概率)
在这里插入图片描述
参考博客:http://www.javashuo.com/article/p-zbtuyagj-eq.html
2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)
1)ID3算法
在这里插入图片描述
2)C4.5的生成算法
在这里插入图片描述
3)CART生成算法
在这里插入图片描述
3.回归树原理
参考博客:http://blog.jobbole.com/114261/
4.决策树防止过拟合手段
参考博客:https://blog.csdn.net/LoveL_T/article/details/84261499
5.模型评估
建立了决策树模型后需要给出该模型的评估值,这样才可以来判断模型的优劣。学习算法模型使用训练集 (training set) 建立模型,使用校验集 (test set) 来评估模型。可以通过评估指标和评估方法来评估决策树模型。 评估指标有分类准确度、召回率、虚警率和精确度等。而这些指标都是基于混淆矩阵 (confusion matrix) 进行计算的。评估方法有保留法、随机二次抽样、交叉验证和自助法等。
参考博客:http://www.javashuo.com/article/p-gtjysfki-ry.html
6.sklearn参数详解,Python绘制决策树
1)sklearn参数详解
参考博客:http://www.javashuo.com/article/p-xulnsyve-nk.html
2)Python绘制决策树
https://blog.csdn.net/Silver_sail/article/details/51906865