C4.5算法(数据挖掘经典分类算法)

实现C4.5算法 一、算法描述 统计好样本集S,属性集A,分别求出属性集中每个属性的信息增益率,选中增益率最大的属性P,假设P总有n种情况的取值(连续变量要离散化),那么分别统计好第i种情况时样本集Si和除去P的属性集Pi,生成相对应的子树。主要重点有:信息增益率的计算、事后剪枝使用悲观错误率衡量、树的建造(分治思想)等。 二、主要步骤 1)  读取文件信息,统计数目 2)  建立决策树 如果样本
相关文章
相关标签/搜索