文本分类的基本步骤是什么,主要划分为几步?

1、获取训练文档集合。训练文档的好坏对分了结果至关重要。一般是公认的,经过人工分类的库。 2、建立文档表示模型。目前分类方法主要用词语(相对于字、短语)来表征文档。具体可能是关键词、主题词。 3、文档特征选择。在所有文档特征向量中,选取最优子集表示文档,减少特征向量计算量。 4、选择分类器。KNN,SVM是文本分类中常用的分类模型。当然,也可以选择bayes、回归模型等。 5、性能评估,参数调优。
相关文章
相关标签/搜索