决策树信息熵和信息增益的概念

1 信息熵:度量样本集合纯度的。 计算方法:  p(k):每一种情况发生的的概率,变量的不确定性越大,其信息熵越大。 2.信息增益:用来进行决策树的划分属性选择。 著名的ID3决策树算法和C4.5算法最根本的不同就是:属性选择的度量方式不同,ID3:依据信息增益。C4.5根据增益率来进行选择划分的属性。 3.决策树容易出现overfitting的情况,主要通过剪枝操作来避免。 先剪枝:树的深度达到
相关文章
相关标签/搜索