NLP项目-文本处理的流程分析

时间 2021-01-02

标签 NPL自然语言处理繁體版

原文原文链接

大部分的NLP项目都是围绕着上面那个pipeline进行的，需要把一个原始文本经过一系列处理，把它处理成特征向量，整个的处理流程分为几个大的步骤，首先需要对文本做分词操作，分词可以分为英文分词和中文分词，英文分词比较简单，完全可以通过空格和标点符号进行区分每一个单词，中文相对困难。之后我们经常做一些数据的清洗工作，主要包括清洗一些没有的标签，比如<html>，特殊符号（!。），停用

>>阅读原文<<