python爬虫:不需要登录静态网页抓取

简单爬虫架构 URL 管理器:管理待爬取URL集合和已抓取URL集合(防止重复抓取、防止循环抓取) 需要支持:1.添加新URL到待爬取集合中    2. 判断待添加URL是否在容器中  3.从url管理器中获取待爬取URL 4.判断URL管理器中是否还有待爬取的URL  5.将URL从待爬取集合中移动到已爬取集合 实现方式:1.将待爬取的URL集合和已爬取的URL集合存储在内存中    使用set
相关文章
相关标签/搜索