决策树模型原理

相关基础概念 纯度:大众选择就意味着纯度越高。数据集里信息大都是相同的,就是纯度高。数据集里包含的信息不少,就是纯度低,信息熵高。web 信息熵:用来度量包含的“信息量”。信息熵越低,纯度越高。若是样本的属性都是同样的,就会让人以为这包含的信息很单一,没有差别化,即纯度高;相反样本的属性都不同,那么包含的信息量就不少,即纯度低。 公式以下: Pk表示的是:当前样本集合D中第k类样本所占的比例为Pk
相关文章
相关标签/搜索