机器学习经典分类算法 —— C4.5算法(附python实现代码)

[toc]html

理论介绍

什么是分类

  • 分类属于机器学习中监督学习的一种。模型的学习在被告知每一个训练样本属于哪一个类的“指导”下进行,新数据使用训练集中获得的规则进行分类。

分类的步骤

什么是决策树

决策树概括

信息增益

相关理论基础

计算公式

ID3

注:生成的决策树有误,fair对应的应该是yes,excellent对应的应该是nopython

C4.5

python实现

  • GitHub地址
  • 不足之处:目前只能处理离散值,而且尚未添加从文件中读取数据集的功能。可是基本上算法的大部分都实现了,之后到了具体应用场景时能够继续调整后使用。

参考资料

  • 理论部分参考:福州大学数学与计算机科学学院苏雅茹老师数据挖掘课上使用的课件(一并上传到Github了,课件内还包括其余一些经常使用分类算法,例如贝叶斯算法)
  • 代码部分参考:Python实现C4.5(信息增益率)
  • 若有侵权,请联系我删除
相关文章
相关标签/搜索