如何用Python 编写知乎爬虫？So easy!

时间 2021-07-10

原文原文链接

爬虫的基本流程网络爬虫的基本工作流程如下：首先选取一部分精心挑选的种子 URL 将种子 URL 加入任务队列从待抓取 URL 队列中取出待抓取的 URL，解析 DNS，并且得到主机的 ip，并将 URL 对应的网页下载下来，存储进已下载网页库中。此外，将这些 URL 放进已抓取 URL 队列。分析已抓取 URL 队列中的 URL，分析其中的其他 URL，并且将 URL 放入待抓取 URL

>>阅读原文<<