爬虫的广度优先和深度优先算法

时间 2020-05-13

原文原文链接

广度优先算法介绍html 　　整个的广度优先爬虫过程就是从一系列的种子节点开始，把这些网页中的"子节点"(也就是超连接)提取出来，放入队列中依次进行抓取。被处理过的连接须要放入一张表(一般称为Visited表)中。每次新处理一个连接以前，须要查看这个连接是否已经存在于Visited表中。若是存在，证实连接已经处理过，跳过，不作处理，不然进行下一步处理。算法　　初始的URL地址是爬虫系统中提供

>>阅读原文<<