词的过滤

词过滤

对于NLP的应用,我们通常先把停用词出现频率很低的词汇进行过滤;这其实类似于特征选择过程。

去掉停用词

在英文里,比如"the",'in","theirs"这些都可以作为停用词来处理。但是,也要考虑自己的应用场景。

去掉低频词

出现频率特别低的词汇对分析作用不大,所以一般也会去掉。把停用词、出现频率低的词过滤之后,就可以得到一个词句。

词干提取

stemming

  • went,go,going —— go
  • fiy,flies —— fli
  • deny,denied,denying —— deni
  • fast,faster,fastest —— fast

stemming不能保证把单词还原为有效的原型,例如上面的fli和deni,这是stemming的特点。stemming中有一个非常著名的算法叫PorterStemmer。

在这里插入图片描述

上图是Porter Stemmer的一个简单思路: 在step 1a中,对于以sses结尾的单词,则改成ss。这相当于写了很多规则,把符合某种规则的后缀改为另一种形式的后缀。