词的过滤

词过滤 对于NLP的应用,我们通常先把停用词、出现频率很低的词汇进行过滤;这其实类似于特征选择过程。 去掉停用词 在英文里,比如"the",'in","theirs"这些都可以作为停用词来处理。但是,也要考虑自己的应用场景。 去掉低频词 出现频率特别低的词汇对分析作用不大,所以一般也会去掉。把停用词、出现频率低的词过滤之后,就可以得到一个词句。 词干提取 stemming went,go,goin
相关文章
相关标签/搜索