决策树算法梳理

一、 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 熵: 香农用信息熵的概念来描述信源的不确定度。 对于任意一个随机变量 X,它的熵定义如下: 变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。 联合熵: 两个变量 X和Y的联合信息熵定义为: 联合熵表征了两事件同时发生系统的不确定度。 条件熵: 设有随机变量(X,Y),其联合概率分布为 p(X=x,Y= yi) = pi
相关文章
相关标签/搜索