R语言爬虫系列5|正则表达式与字符串处理函数

无论是R中的RCurl组件还是Python的BeautifulSoup库,对网页HTML完成下载解析之后我们从这些看似杂乱无章的文本中拿到我们感兴趣的数据。之前在系列2的时候小编就已经跟大家介绍过HTML/XML专用工具XPath表达式,今天小编需要跟大家介绍一款更为通用、更加底层的文本信息提取工具——正则表达式。   所谓正则表达式,即使用一个字符串来描述、匹配一系列某个语法规则的字符串。通过特
相关文章
相关标签/搜索