文档过滤

1、早期的过滤器 早期的都是基于规则的分类器,使用事先设计好的一组规则,用于指明某条信息属于垃圾信息。典型的规则有: -英文大写字母的过度使用 -与医药学相关的单词 -过于花哨的HTML用色等 2、智能分类器 a. 特征提取 将单词作为文档的特征,其假设:某些单词相对而言更会出现在垃圾信息中。不过特征未必是一个个单词,他们也可以是词组或者短语,或者任何可以归为文档中缺失或者不存在的其他东西。 如何
相关文章
相关标签/搜索