Python网络爬虫 (二) urllib2

1.网络爬虫的架构 :    2.URL管理器的简单实现 : (1)存放待爬取URL的 set 集合. (2)存放未爬取URL的  set 集合. (3)URL管理器应该具有的方法 :   添加新的URL,    判断添加的URL是否存在,   判断是否存在待爬取的URL,   获取待爬取的URL,   移动爬取完成的URL由未爬取 set 集合至  已爬取 set 集合. 3.网页下载器的三种实
相关文章
相关标签/搜索