基于内容识别垃圾邮件的一些问题和思考

前言 网上关于应用机器学习的方法识别垃圾邮件文章很多. 核心思想是对邮件进行分词,或对分词作优化,进而应用各算法达到识别垃圾邮件的目的. 我的观点是, 这种思路 对一般文章,如帖子,博客,甚至严肃的论文都会有不错的分类效果. 但用于识别垃圾邮件则远远不足. 分类基本要素 作者不是研究算法的,只是根据多年识别垃圾邮件的经验,认为分类的基本要素包括: 分类算法 大量高质量的样本 数据清理 特征的提取
相关文章
相关标签/搜索