NLP入门(三)词形还原(Lemmatization)

  词形还原(Lemmatization)是文本预处理中的重要部分,与词干提取(stemming)很相似。   简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同于词干提取(stemming),提取后的单词不一定会出现在单词中。比如,单词“cars”词形还原后的单词为“car”,单词“ate”词形还原后的单词为“eat”。   在Python的nltk
相关文章
相关标签/搜索