python爬虫：不需要登录静态网页抓取

时间 2021-01-09

原文原文链接

简单爬虫架构 URL 管理器：管理待爬取URL集合和已抓取URL集合（防止重复抓取、防止循环抓取）需要支持：1.添加新URL到待爬取集合中 2. 判断待添加URL是否在容器中 3.从url管理器中获取待爬取URL 4.判断URL管理器中是否还有待爬取的URL 5.将URL从待爬取集合中移动到已爬取集合实现方式：1.将待爬取的URL集合和已爬取的URL集合存储在内存中使用set

>>阅读原文<<