python——利用正则表达式爬取豆瓣读书中的图书信息

原本可使用一条正则表达式完成图书信息的爬取,结果发如今CPU性能较差的电脑上进行爬取时耗时很是长,几乎没法将结果获取到。因此,将大的html源码先通过一次简单的匹配以获取到一个中间结果,而后再从中间结果中依次进行匹配。结果发现按照这个步骤,即便使用循环也能很是快速的获取到图书信息。(最后的代码为使用进程池,结果发现效果不佳)html   步骤简介以下:python       使用requests
相关文章
相关标签/搜索