RE

正则表达式在爬虫和处理字符串的过程中常常会被用到,例如解决下面两个问题 (1)去除爬取到的结果里面的特殊字符/[^] (2)我只想让文本中留下中文字符。 python的re包提供了强大的正则表达式应用,能让我们方便的解决类似上面的问题。具体的步骤也比较简单 (1)首先我们要根据正则表达式的规则写出我们想要去寻找或者匹配的模式,例如:[^\u4E00-\u9FD5]+,是说匹配除了中文以外的字符 (
相关文章
相关标签/搜索