树模型串联(一)(决策树基础:信息熵、信息增益、信息增益率、基尼指数、过拟合预防)

1.信息熵、信息增益、信息增益率 信息熵 衡量的是样本集合的“纯度”,也可以理解为样本中类别区分的不确定性;熵值越小,纯度越高,那么不确定性越低,就越能将样本很好的分类(很确定性的分类比如p1=1;其他的都=0),信息熵最大时,不确定性就最高(当几个类别占比都一样的时候)。 信息增益 生长一棵树,一棵树就是一套规则,得到这套规则;希望这套规则最大程度的帮助做决策和判断。 每一次去做决策都要让不确定
相关文章
相关标签/搜索