NLP项目-文本处理的流程分析

        大部分的NLP项目都是围绕着上面那个pipeline进行的,需要把一个原始文本经过一系列处理,把它处理成特征向量,整个的处理流程分为几个大的步骤,首先需要对文本做分词操作,分词可以分为英文分词和中文分词,英文分词比较简单,完全可以通过空格和标点符号进行区分每一个单词,中文相对困难。之后我们经常做一些数据的清洗工作,主要包括清洗一些没有的标签,比如<html>,特殊符号(!。),停用
相关文章
相关标签/搜索