科普-文本挖掘(文本分类)流程

一个典型的文本分类的数据挖掘流程如下图,这张图初看有点乱,我这里解释一下,红色的部分是训练时候调用的模块,绿色是测试时候调用的模块,而蓝色的部分是训练的时候生成的中间文件,它们联系着训练、测试两个部分。从左到右看是算法运行的流程,首先用户给出原始的用于训练的中文文本,然后进行分词等操作。经过了生成矩阵这个步骤,文本就转化成了数学语言了,之后的算法都是运行在这个数学语言之上,之后的算法就不再关心输入
相关文章
相关标签/搜索