自然语言处理时,通常的文本清理流程是什么?

  自然语言处理文本清理流程,主要分为二步:   1.文本预处理,我们的文本基本都是网络文本,主要是网页html的形式,网页中存在很多不必要的信息,比如说一些广告、导航栏,html、JS代码,注释等等,无用的价值信息,可以合理的清理掉,如果需要正文提取,可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。   2.文本流的语言学处理,主要分为3小步:   1.分词经
相关文章
相关标签/搜索