爬虫基本原理及概念

爬虫在网络中爬行的时候,将Web 上的网页集合当作是一个有向图,从给定的起始 URL 开始,沿着网页中的连接,按照必定的策略进行。一般用到如下几种遍历算法: 一、深度优先算法 该算法是指网络爬虫会从选定的一个超连接开始,按照一条线路,一个一个连接访 问下去,直到达到这条线路的叶子节点,即不包含任何超连接的HTML 文件,处理完这 条线路以后再转入下一个起始页,继续访问新的起始页面所包含的连接中的一
相关文章
相关标签/搜索