python爬虫防止IP被封的一些措施

时间 2019-11-09

原文原文链接

在编写爬虫爬取数据的时候，由于不少网站都有反爬虫措施，因此很容易被封IP，就不能继续爬了。在爬取大数据量的数据时更是瑟瑟发抖，时刻担忧着下一秒IP可能就被封了。html

本文就如何解决这个问题总结出一些应对措施，这些措施能够单独使用，也能够同时使用，效果更好。python

伪造User-Agent

在请求头中把User-Agent设置成浏览器中的User-Agent，来伪造浏览器访问。好比：git

headers = {'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
resp = requests.get(url,headers = headers)

还能够先收集多种浏览器的User-Agent，每次发起请求时随机从中选一个使用，能够进一步提升安全性：github

In [7]: import requests,random

In [8]: user_agents = ['Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11']

In [9]: def get_html(url):
   ...:     headers = {'User-Agent':random.choice(user_agents)}
   ...:     resp = requests.get(url,headers = headers)
   ...:     return resp.text

把上面随机选择一个User-Agent的代码封装成一个函数：浏览器

import random
def get_headers():
    '''
    随机获取一个headers
    '''
    user_agents =  ['Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11']
    headers = {'User-Agent':random.choice(user_agents)}
    return headers

注：一些常见浏览器的User-Agent可参见：https://blog.csdn.net/qianxing111/article/details/79415857安全

在每次重复爬取之间设置一个随机时间间隔

好比：
time.sleep(random.randint(0,3))  # 暂停0~3秒的整数秒，时间区间：[0,3]
或：
time.sleep(random.random())  # 暂停0~1秒，时间区间：[0,1)

伪造cookies

若从浏览器中能够正常访问一个页面，则能够将浏览器中的cookies复制过来使用，好比：cookie

cookies = dict(uuid='b18f0e70-8705-470d-bc4b-09a8da617e15',UM_distinctid='15d188be71d50-013c49b12ec14a-3f73035d-100200-15d188be71ffd')
resp = requests.get(url,cookies = cookies)
# 把浏览器的cookies字符串转成字典
def cookies2dict(cookies):
    items = cookies.split(';')
    d = {}
    for item in items:
        kv = item.split('=',1)
        k = kv[0]
        v = kv[1]
        d[k] = v
    return d

注：用浏览器cookies发起请求后，若是请求频率过于频繁仍会被封IP，这时能够在浏览器上进行相应的手工验证（好比点击验证图片等），而后就能够继续正常使用该cookies发起请求。app

使用代理

能够换着用多个代理IP来进行访问，防止同一个IP发起过多请求而被封IP，好比：dom

proxies = {'http':'http://10.10.10.10:8765','https':'https://10.10.10.10:8765'}
resp = requests.get(url,proxies = proxies)
# 注：免费的代理IP能够在这个网站上获取：http://www.xicidaili.com/nn/

附：GitHub上的一个"反反爬虫"项目

道高一尺魔高一丈，你有反爬虫措施，那我也有各类"反反爬虫"的措施，GitHub上就有一位大神专门整理了一个这样的项目：Anti-Anti-Spider，连接地址为：
https://github.com/luyishisi/Anti-Anti-Spider
能够研究一下。ide