决策树——信息熵,条件熵,信息增益

1、信息熵 信息熵是度量样本集的纯合度的一种常用的指标,熵值越大,随机变量的不确定性越高。 比如:   {0,0,01,1,1,1} {1,2,3,4,5,6,7} 在这两组数据中,上面的数据的不确定性要小,只有两种可能性,抽中的数字2的概率为1/2。所以其熵值就低 下面的那组数据的不确定性就要大,每个数字抽中的概率都要小。所以其熵值要高,不确定性就越大。   信息熵公式:            
相关文章
相关标签/搜索