爬虫之URL去重

URL去重 咱们在写爬虫时为何须要进行URL去重?python 在爬虫启动工做的过程当中,咱们不但愿同一个url地址被屡次请求,由于重复请求不只会浪费CPU,还会下降爬虫的效率,加大对方服务器的压力。而想要控制这种重复请求的问题,就要考虑请求所依据的url,只要可以控制待下载的URL不重复,基本能够解决同一个网页重复请求的问题。 对于已经抓取过的url,进行持久化,而且在启动的时候加载进入去重队列
相关文章
相关标签/搜索