如果让你设计一个网络爬虫,你怎么避免陷入无限循环?

话说爬虫为什么会陷入循环呢?答案很简单,当我们重新去解析一个已经解析过的网页时,就会陷入无限循环。这意味着我们会重新访问那个网页的所有链接,然后不久后又会访问到这个网页。最简单的例子就是,网页A包含了网页B的链接,而网页B又包含了网页A的链接,那它们之间就会形成一个闭环。 那么我们怎样防止访问已经访问过的页面呢?答案很简单,设置一个标志即可。整个互联网就是一个图结构,我们通常使用DFS(深度优先搜
相关文章
相关标签/搜索