决策树算法梳理

信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) a. 熵 信息熵 假设集合D中有y类样本,第k类的样本出现频率为Pk,则样本D的熵为 其中,当样本 DD 中 |y|∣y∣ 类样本均匀分布时,这时信息熵最大,纯度最小,熵为 当样本D中只有一类样本,此时信息熵最小,纯度最大,熵为 ** 联合熵** 所以若是在x的基础上加入了一个y,那么联合熵H(x,y) ,必定大于等于H(x),H(y),当且
相关文章
相关标签/搜索