1.4 网络爬虫采集策略

网络爬虫的采集策略一般分为四种:深度优先策略、广度优先策略、非完全PageRank策略和大站优先策略。 深度优先策略:深度优先遍历策略是指网络爬虫从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪,直至结束,深度优先策略处理方式如下图所示。 深度优先策略是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索网页结构的叶结点(即那些不包含任何超链接的HTML文
相关文章
相关标签/搜索