网络爬虫系统

爬虫系统有5个组件构成:ide

Spider 爬虫总体控制下载

下载器请求

网页处理器系统

处理管线

调度器

整个流程,向调度器加入初始请求-》下载器下载对应网页-》分析器,获取网页上的连接,以及网页内容-》处理管线将分析到的有效内容保存下来

相关文章
相关标签/搜索