文章类别判断

文章分类初步思路:
1、相似机器学习阶段:
1.对输入文章进行分词,这里须要明确告诉
系统这篇文章属于哪一个分类,而后对该文章进行
分词,分词须要去掉嘈杂词(经常使用短语、口语等),对剩下的
词放入指定的分类词组表中,表中能够包括字段:关键词、词频
2.当一类文章量达到必定量的时候,筛选出该类词组表中词频高于某一阈值的词组,做为该类文章的关键词
3.对1操做次数越多,词频统计出来更有效、更准确


2、判断阶段
对任意输入文章,按照上面1的步骤找出相关关键词字等,而后到
全部的分类的词组表中作命中匹配率统计,找出命中率较高
的那组则可判断出该文章属于该分类;

欢迎讨论.....
机器学习

相关文章
相关标签/搜索