C4.5(weka又称为J48)算法原理详解

1. 信息增益率 ID3算法有以下几个缺点: 1个属性取值越多,则此属性的信息增益率越大,越有可能被ID3选为当前分类属性。然而取值较多的属性并不一定最优。(例如一个属性的每个子节点都只有1个样本,此时信息增益率达到最大,但是用这样的属性却没有任何意义) ID3只能处理离散型属性 可以处理缺失数据 可以对树进行剪枝 针对ID3算法的不足,Quinlan又提出了C4.5,C4.5算法采用信息增益率来
相关文章
相关标签/搜索