NLP学习笔记

text = text.lower()  //全部小写 import re text = re.sub(r”[a-zA-Z0-9]”,” ”,text)  //标点移除 //标记化(Tokenization ) Words = text.split() //以空格分词  ‘,’也会被分为一个词 //NLTK 自然语言工具包 From nltk.tokenize import word_tokeni
相关文章
相关标签/搜索