文本预处理

1.利用正则表达式对去除非文本字符python #u的做用 :后面的字符串以unicode格式进行编码,用在中文字符前面,防止由于源码存储格式致使使用时出现乱码 import re pattern = re.compile(u'[^a-zA-Z\u4E00-\u9FA50-9]') dissertation_title = "'Daddy's girls', 'degenerate daughte
相关文章
相关标签/搜索