爬虫系统有5个组件构成:ide
Spider 爬虫总体控制下载
下载器请求
网页处理器系统
处理管线
调度器
整个流程,向调度器加入初始请求-》下载器下载对应网页-》分析器,获取网页上的连接,以及网页内容-》处理管线将分析到的有效内容保存下来