URL 去重[爬虫专题(22)]

不管是什么网站,都会存在大量的URL重复的问题,若是不处理好这个问题,最严重的状况是可能会陷入死循环中。python   例如大多数网站的第一个URL都是连接到首页的,若是采用深度优先策略,而不对URL进行去重,就会陷入死循环中。数据库   还有可能出现什么问题呢,那就是虽然可以向整个网站的全部URL发起请求,可是将会耗费巨大的内存,甚至还没等爬取完整个网站的URL,内存就已经不够用了。框架 因此
相关文章
相关标签/搜索