《本身动手写网络爬虫》读书笔记——宽度优先爬虫和带偏好的爬虫

时间 2020-07-07

原文原文链接

　　前面只是获取了单个网页内容，在实际中，则使用爬虫程序遍历互联网，把网络中相关的网页所有抓取过来，这也体现了爬虫程序“爬”的概念。html 　　互联网能够当作一个超级大的“图'，而每一个网页则能够看做是一个”节点“。页面中的连接能够当作是图的”有向边“。所以，能够经过图的遍历的方式对互联网这个”图“进行访问。图的遍历分为宽度优先和深度优先，但深度优先可能会在深度上过于”深”的遍历或者陷入“黑洞”

>>阅读原文<<