集成学习(一)

入门知识点: 熵: 假设集合中的变量X={x1,x2…xn},它对应在集合的概率分别是P={p1,p2…pn}。 信息增益: 第一列为QQ,第二列为性别,第三列为活跃度,最后一列用户是否流失。我们要解决一个问题:性别和活跃度两个特征,哪个对用户流失影响更大?我们通过计算信息熵可以解决这个问题。 按照分组统计,我们可以得到如下信息: 其中Positive为正样本(已流失),Negative为负样本(
相关文章
相关标签/搜索