爬虫主要流程

爬虫主要流程 调度器 主调度程序主要是管理上图中其他几个模块的,而后循环的执行这几个模块进行爬取信息,直到条件达到(爬取够必定数量)跳出循环。 URL管理器 每爬取一个网页的有用信息后,并把有用的URL爬取下来放入URL管理器中,等下次循环的爬取能够直接从这个管理器中获取URL 网页下载器 这里用到下载网页的库是urllib2,经过库把url指定的网页的html源代码下载下来,存入urllib2对
相关文章
相关标签/搜索