NLP文本处理流程

时间 2019-12-04

标签 nlp 文本处理流程繁體版

原文原文链接

一般咱们文本处理流程以下:机器学习 1 对文本数据进行预处理：数据预处理，包括简繁体转换，去除xml符号，将单词条内容处理成单行数据，word2vec训练原理是基于词共现来训练词之间的语义联系的。不一样词条内容需分开训练 2 中文分词：中文NLP很重要的一步就是分词了，分词的好坏很大程度影响到后续的模型训练效果 3 特征处理：也叫词向量编码，将文本数据转换成计算机能识别的数据，便于计算，一般是转换

>>阅读原文<<