图书信息库完整解决方案(五)网络代理

频繁的爬取网站数据,很容易致使ip被封锁,因此在具体爬取网页的过程当中必定要使用代理ip。网站

代理ip的来源通常就两种:代理

一、免费代理ip(可自行搜索,通常免费ip的质量不会过高,而且时好时坏,有不少根本没法使用)。blog

二、付费代理ip(有很多网站提供收费的代理ip,质量高而且访问速度稳定)。ip

我在这里采用了两种相结合的方式,首先从百度上找了一些免费ip,而后也少许付费购买了一些收费ip,在此基础上造成了本身的种子ip库。基础

而后以这个库为基础进行图书数据的抓取。百度

当某个ip没法使用时则在库内进行标记,当可以使用的ip低于某个临界值(好比仅有10个ip可用)则从指定网站抓取一些免费ip入库。搜索

当全部ip都没法使用时,则重置库内全部ip为可用,而后从头开始尝试,每每有一些ip这时候就可用了。im

这样一边积累本身的ip库,一边不断的抓取,基本能保证始终有可用的代理ip。数据

 

相关文章
相关标签/搜索