手把手教你写网络爬虫(7)

本期我们来聊聊URL去重那些事儿。以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的URL去除,避免多次抓取同一网页。爬虫会将待抓取的URL放在todo队列中,从抓取到的网页中提取到新的URL,在它们被放入队列之前,首先要确定这些新的URL是否被抓取过,如果之前已经抓取过了,就不再放入队列。 有别于单机系统,在分布式系统中,这些URL应该存放在公共缓存中,才能让多个爬虫实例共
相关文章
相关标签/搜索