关于树模型一些问题的思考--从决策树一直到XGB

首先是ID3,C4.5与CART树的区别: 1、分特征基点不同,以及对应造成的特性 : 前两者基于熵 条件熵 信息增益(ID3) 缺点:信息增益偏向取值较多的特征 原因:当特征的取值较多时,根据此特征划分更容易得到纯度更高的子集,因此划分之后的熵更低,由于划分前的熵是一定的,因此信息增益更大,因此信息增益比较 偏向取值较多的特征。 信息增益比(C4.5) 其中的 H A ( D ) H_A(D)
相关文章
相关标签/搜索