目前有不少网站提供免费代理,并且种类齐全,好比各个地区、各个匿名级别的都有,不过质量实在不敢恭维,毕竟都是免费公开的,可能一个代理无数我的在用也说不定。因此咱们须要作的是大量抓取这些免费代理,而后筛选出其中可用的代理存储起来供咱们使用,不可用的进行剔除。git
维护一个代理池第一步就是要找到提供免费代理的站点,例如PROXY360,网页内容以下:github
能够看到网页里提供了一些免费代理列表,包括服务器地址、端口、代理种类、地区、更新时间等等信息。redis
当前咱们须要的就是代理服务器和端口信息,将其爬取下来便可。数据库
那么爬取下代理以后怎样保存呢?服务器
首先咱们须要确保的目标是能够边取边存,另外还须要定时检查队列中不可用的代理将其剔除,因此须要易于存取。app
另外怎样区分哪些是最新的可用的,哪些是旧的,若是用修改时间来标注是能够的,不过更简单的方法就是维护一个队列,只从一端存入,例如右端,这样就能确保最新的代理在队列右端,而在左端则是存入时间较长的代理,若是要取一个可用代理,从队列右端取一个就行了。网站
那么对于队列的左端,不能让它一直老化下去,还须要作的操做就是定时从队列左端取出代理,而后进行检测,若是可用,从新将其加入右端。url
经过以上操做,就保证了代理一直是最新可用的。spa
因此目前来看,既能高效处理,又能够作到队列动态维护,合适的方法就是利用Redis数据库的队列。代理
能够定义一个类来维护一个Redis队列,好比get方法是批量从左端取出代理,put方法是从右端放入可用代理,pop方法是从右端取出最新可用代理。
import redis from proxypool.error import PoolEmptyError from proxypool.setting import HOST, PORT class RedisClient(object): def __init__(self, host=HOST, port=PORT): self._db = redis.Redis(host, port) def get(self, count=1): proxies = self._db.lrange("proxies", 0, count - 1) self._db.ltrim("proxies", count, -1) return proxies def put(self, proxy): self._db.rpush("proxies", proxy) def pop(self): try: return self._db.rpop("proxies").decode('utf-8') except: raise PoolEmptyError
那么如何来检测代理是否可用?可使用这个代理来请求某个站点,好比百度,若是得到正常的返回结果,那证实代理可用,不然代理不可用。
conn = RedisClient() proxies = {'http': proxy} r = requests.get('https://www.baidu.com', proxies=proxies) if r.status_code == 200: conn.put(proxy)
例如在这里proxy就是要检测的代理,使用requests库设置好这个代理,而后请求百度,正常请求,那就能够将这个代理存入Redis。
如今咱们维护了一个代理池,那么这个代理池须要是能够公用的。
好比如今有多个爬虫项目都须要用到代理,而代理池的维护做为另外的一个项目,他们之间若是要创建链接,最恰当的方式就是接口。
因此能够利用Web服务器来实现一个接口,其余的项目经过请求这个接口获得内容获取到一个可用代理,这样保证了代理池的通用性。
因此要实现这个还须要一个Web服务器,例如Flask,Tornado等等。
例如使用Flask,定义一个路由,而后调用的RedisClient的pop方法,返回结果便可。
@app.route('/') def get_proxy(): conn = RedisClient() return conn.pop()
这样一来,整个程序运行起来后,请求网页就能够看到一个可用代理了。
使用代理时只须要请求这个站点,就能够拿到可以使用的代理了。
def get_proxy(): r = requests.get('http://127.0.0.1:5000') return r.text def crawl(url, proxy): proxies = {'http': get_proxy()} r = requests.get(url, proxies=proxies) # do something
能够定义一个简单的方法,返回网页内容即代理,而后在爬取方法里设置代理使用便可。
https://github.com/Germey/ProxyPool
此文已由做者受权腾讯云技术社区发布,转载请注明文章出处