Python爬虫入门，快速抓取大规模数据（第六部分）

时间 2020-12-31

原文原文链接

在前面的章节中，我们以尽量少的代码演示了爬虫的基本原理。如果只是需要抓取一些简单的数据，那么我们修改一下前面的代码就可以完成任务了。但是当我们需要完成一些复杂的大型抓取任务时，我们就需要考虑更多东西，例如爬虫的可扩展性，抓取效率等。现在让我们再回顾一下我们抓取的过程：从待下载URL列表取出URL；构造和发送HTTP请求下载网页；解析网页提取数据，解析网页提取URL并加入待下载列表；存储从网页提取

>>阅读原文<<