python——利用正则表达式爬取豆瓣读书中的图书信息

时间 2020-02-17

原文原文链接

原本可使用一条正则表达式完成图书信息的爬取，结果发如今CPU性能较差的电脑上进行爬取时耗时很是长，几乎没法将结果获取到。因此，将大的html源码先通过一次简单的匹配以获取到一个中间结果，而后再从中间结果中依次进行匹配。结果发现按照这个步骤，即便使用循环也能很是快速的获取到图书信息。（最后的代码为使用进程池，结果发现效果不佳）html 步骤简介以下：python 使用requests

>>阅读原文<<