Python Web数据抓取(xpath版)

http://www.redicecn.com/html/blog/ html 这个版本较以前的“正则表达式版”而言,主要有如下几个改进: (1)采用SQLite缓存抓取的HTML页面,大大提升了二次数据处理的效率。第一次运行程序大约耗时6小时,之后只需3分钟左右便可完成。 (2)采用xpath替换以前的正则表达式进行HTML解析。xpath定位更加简单、方便,并且可以自动修正html错误语法。x
相关文章
相关标签/搜索