数据挖掘——最佳划分度量(1)

前言 有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就会越倾斜。 例子: 类分布为(0,1)的结点具有零不纯性(是比较好的) 均衡分布(0.5,0.5)的结点具有最高的不纯性 提示:以下是本篇文章正文内容,下面案例可供参考 一、不纯性度量的公式 注意:p(i|t)表示给定结点t中属于i类的比例 ①熵(信息论中使用较多) En
相关文章
相关标签/搜索