scrapy使用随机User-Agent

时间 2019-11-17

标签 scrapy 使用随机 user agent 栏目 Python 繁體版

原文原文链接

scrapy使用随机User-Agent

众所周知，User-Agent值是用来帮助服务器识别用户使用的操做系统、浏览器、浏览器版本等等信息的，所以也常被用来检测爬虫。python

许多网站会ban掉来自爬虫的请求，来达到反爬的目的。浏览器

正常浏览器的User-Agent值为：服务器

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0dom

使用requests时的默认User-Agent为：scrapy

python-requests/2.18.4ide

scrapy的默认值为：函数

Scrapy/1.5.0 (+https://scrapy.org)网站

服务器能够轻易识别出该请求是否来自爬虫。url

所以为了减少爬虫被ban的概率，咱们能够经过设置请求的User-Agent来达到欺骗服务器的目的。spa

在scrapy里，设置随机的User-Agent有两种方式

经过middlware添加
在spider的request里添加

首先介绍第一种，经过middleware添加

安装fake-useragent
pip install fake-useragent 这个包里内置了许多浏览器的User-Agent，这样就不用咱们自建一个User-Agent池了

在你的scrapy项目的middlewares.py导入fake-useragent包
from fake_useragent import UserAgent
而后将下面的RandomUserAgentMiddlware复制进去

class RandomUserAgentMiddlware(object):
    #随机更换user-agent
    def __init__(self,crawler):
        super(RandomUserAgentMiddlware,self).__init__()
        self.ua = UserAgent()

 @classmethod
    def from_crawler(cls,crawler):
        return cls(crawler)

    def process_request(self,request,spider):
        request.headers.setdefault("User-Agent",self.ua.random)
复制代码

最后在setting.py的DOWNLOADER_MIDDLEWARES里将其添加进去，这里的yourProjectName改成你的项目名称

DOWNLOADER_MIDDLEWARES = {
    'yourProjectName.middlewares.RandomUserAgentMiddlware': 333,
}

复制代码

那么这个便设置好了，以后爬虫启动后，每个request请求的User-Agent都会是一个随机的值。这样即可以欺骗服务器，这是多个浏览器发送过来的请求。达到咱们反反爬的目的。

第二种方法，就是在spider里面添加。

咱们这里以百度首页为例

一样是先导入fake-useragent包，而后在parse方法里，咱们让它请求十次。

添加一个second_parse作为parse函数的回调函数，处理parse函数里面请求的响应值。

在second_parse里添加 print(response.request.headers['User-Agent'])用来观察咱们设置的User-Agent是否生效。具体代码以下：

def parse(self, response):
        ua = UserAgent()
        for i in range(10):
            header = {'User-Agent':ua.random}
            yield scrapy.Request(url='https://www.baidu.com',headers=header,callback=self.second_parse,dont_filter=True)
    def second_parse(self,response):
        print(response.request.headers['User-Agent'])
复制代码

运行此爬虫后，咱们能够看到爬虫的部分输出以下：

2018-09-18 01:27:22 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.baidu.com> (referer: https://www.icourse163.org/)
2018-09-18 01:27:22 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.baidu.com> (referer: https://www.icourse163.org/)
b'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36'
b'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.62 Safari/537.36'
b'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.60 Safari/537.17'
b'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36'
b'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36'
b'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.16 Safari/537.36'
复制代码

所以，咱们的随机User-Agent是已经设置成功了

结束语

以上介绍的两种方法均可以用来设置随机User-Agent，只须要根据咱们要爬的的网站特性，任选一种便好。不过通常禁止了爬虫User-Agent的页面，通常也是设置了robots协议禁止爬取的，出于职业道德考虑的话，咱们应当避免爬取此类页面。