《本身动手写网络爬虫》读书笔记——宽度优先爬虫和带偏好的爬虫

  前面只是获取了单个网页内容,在实际中,则使用爬虫程序遍历互联网,把网络中相关的网页所有抓取过来,这也体现了爬虫程序“爬”的概念。html   互联网能够当作一个超级大的“图',而每一个网页则能够看做是一个”节点“。页面中的连接能够当作是图的”有向边“。所以,能够经过图的遍历的方式对互联网这个”图“进行访问。图的遍历分为宽度优先和深度优先,但深度优先可能会在深度上过于”深”的遍历或者陷入“黑洞”
相关文章
相关标签/搜索