《程序员的第一年》---------- 数据挖掘之数据处理(C#基于熵的离散化算法代码)

熵(entropy)是最经常使用的离散化度量之一。它由Claude Shannon在信息论和信息增益概念的开创性工做中首次引进。基于熵的离散化是一种监督的、自顶向下的分裂技术。它在计算和肯定分裂点(划分属性区间的数据值)时利用类分布信息。为了离散数值属性A,该方法选择A的具备最小熵的值做为分裂点,并递归地划分结果区间,获得分层离散化。这种离散化造成A的概念分层。 设D由属性集和类标号属性定义的数据
相关文章
相关标签/搜索