随着 Python 和大数据的火热,大量的工程师一拥而上,爬虫技术因为易学、效果显著首当其冲的成为了你们追捧的对象,爬虫的发展进入了高峰期,所以给服务器带来的压力则是成倍的增长。企业或为了保证服务的正常运转或为了下降压力与成本,不得不使出各类各样的技术手段来阻止爬虫工程师们毫无节制的向服务器索取资源,咱们将这种行为称为『反爬虫』。php
『反爬虫技术』是互联网技术中为了限制爬虫而产生的技术总称,而反爬虫的绕过则是全部爬虫工程师要面对的问题,也是中高级爬虫工程师面试中最关注的方面。linux
可是在平时的交流中,笔者发现大多数的初级爬虫工程师只会拿着网上别人写的技术文章唾沫横飞,除了知道在请求的时候伪造浏览器请求头信息中的 User-Agent 之外,对于:nginx
为何要这么作?web
这么作有什么好处?面试
我能够用别的方法实现么?编程
它的原理是怎么样的?后端
它是如何识别个人爬虫的?浏览器
我应该用什么方式绕过它?服务器
一无所知。若是你既不知道原理又不知道实现方式,那么当目标网站稍微调整一下反爬虫策略的时候,你仍是一脸懵逼微信
对,就是一脸懵逼。
我也在尝试着,可以将这样的知识分享出来,让你们在闲暇之余可以经过这篇文章学习到反爬虫知识中比较简单的反爬虫原理和实现方法,再熟悉他的绕过操做。好比 User-Agent 反爬手段,了解它的原理而且亲手实现反爬虫,再亲手绕过它。或许经过这个小小的案例,就能够打开你思惟的大门、撬开你思路的下水道。
上面是空谈,下面是实践。一位伟人曾经表达过这么一个意思:
管你黑猫白猫,抓不到老鼠的猫,它就不是个好猫
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器可以识别客户使用的操做系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。一些网站经常经过判断 UA 来给不一样的操做系统、不一样的浏览器发送不一样的页面,所以可能形成某些页面没法在某个浏览器中正常显示,但经过假装 UA 能够绕过检测。浏览器向服务器发起请求的流程图,能够用下图表示:
这里以火狐浏览器和谷歌浏览器为例,UA 的格式或者说表现形式是这样的:
Firefox 的 User-Agent:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:63.0) Gecko/20100101 Firefox/63.0
Chrome 的 User-Agent:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36
在网络请求当中,User-Agent 是标明身份的一种标识,服务器能够经过请求头参数中的 User-Agent 来判断请求方是不是浏览器、客户端程序或者其余的终端(固然,User-Agent 的值为空也是容许的,由于它不是必要参数)。
从上面的介绍中,能够看出它是终端的身份标识。意味着服务器能够清楚的知道,这一次的请求是经过火狐浏览器发起的,仍是经过 IE 浏览器发起的,甚至说是不是应用程序(好比 Python )发起的。
网站的页面、动效和图片等内容的呈现是借助于浏览器的渲染功能实现的,浏览器是一个相对封闭的程序,由于它要确保数据的成功渲染,因此用户没法从浏览器中大规模的、自动化的获取内容数据。
而爬虫却不是这样的,爬虫生来就是为了获取网络上的内容并将其转化为数据。这是两种大相径庭的方式,你也能够理解为经过编写代码来大规模的、自动化的获取内容数据,这是一种骚操做。
回到正题,为何会选择 User-Agent 这个参数呢?
由于编程语言都有默认的标识,在发起网络请求的时候,这个标识在你绝不知情的状况下,做为请求头参数中的 User-Agent 值一并发送到服务器。好比 Python 语言经过代码发起网络请求时, User-Agent 的值中就包含 Python 。一样的,Java 和 PHP 这些语言也都有默认的标识。
既然知道编程语言的这个特色,再结合实际的需求,那么反爬虫的思路就出来了。这是一中黑名单策略,只要出如今黑名单中的请求,都视为爬虫,对于此类请求能够不予处理或者返回相应的错误提示。
现实生活中,浏览器类型繁多(火狐浏览器、谷歌浏览器、360 浏览器、傲游浏览器、欧普拉浏览器、世界之窗浏览器、QQ 浏览器等),
再者说来,不少的服务并不只仅开放给浏览器,有些时候这些服务以 API 的形式向应用程序提供服务,好比安卓软件的后端 API ,为安卓软件程序提供数据服务,而软件自己只承担界面和结构的任务,而数据则从后端 API 获取。这个时候,发起的请求中, User-Agent 就会变成 Android 。
以上就是不能使用白名单策略的缘由。
而黑名单在于简单,当你但愿屏蔽来自于 Python 代码的请求或者来自于 Java 代码的请求时,只须要将其加入黑名单中便可。
Nginx 是一款轻量级的 Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器。其特色是占有内存少,并发能力强,事实上 Nginx 的并发能力确实在同类型的网页服务器中表现较好,使用 Nginx 企业有:百度、京东、新浪、网易、腾讯、淘宝等。
一般可使用系统自己的安装工具(Centos 的 yum、Debian 系的 apt-get 以及 MacOS 的 brew)安装 Nginx,以 linux 系统为例,在终端中输入:
sudo apt-get install nginx
接着在终端经过命令:
sudo systemctl start nginx
备注:因为各个系统差异以及版本差别,安装和启动命令略有差异,解决办法自行搜索
Nginx 为用户提供了日志功能,其中记录了每次服务器被请求的状态和其余信息,包括 User-Agent。 Nginx 的默认日志存放路径为:
/var/log/nginx/
在终端经过命令
cd /var/log/nginx && ls
能够进入到日志存放目录并列出目录下的文件,能够看到其中有两个主要的文件,为 access.log
和 error.log
它们分别记录着成功的请求信息和错误信息。咱们经过 Nginx 的访问日志来查看每次请求的信息。
Nginx 启动后,默认监听 80 端口,你只须要访问 IP 地址或者域名便可。假设 IP 地址为 127.0.0.1
,那么能够在浏览器输入:
http://127.0.0.1
回车后,浏览器就会向服务器发起请求,和你平时上网是同样的。
这里咱们利用 Requests 库来发起网络请求。在本地新建一个名为 gets.py
的文件,其中代码为:
import requests
# 向目标发起请求,并打印返回的 http 状态码
resp = requests.get("http://127.0.0.1")
print(resp.status_code)
Postman是一款功能强大的网页调试与发送网页HTTP请求的工具(Postman下载地址),它能够模拟浏览器,访问指定的 Url 并输出返回内容,实际使用以下图所示:
这是一个利用URL语法在命令行下工做的传输工具,它不只支持 url 地址访问还支持文件上传和下载,因此能够称它为综合传输工具。他也能够模拟浏览器,访问指定的 Url,实际使用以下图所示:
上面使用了 4 种方法来向服务器发起请求,那么咱们看看 Nginx 的日志中,记录了什么样的信息。在终端经过命令:
sudo cat access.log
来查看日志文件。能够看到这几回的请求记录:
# 请求记录
127.0.0.1 - - [04/Nov/2018:22:19:07 +0800] "GET / HTTP/1.1" 200 396 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
127.0.0.1 - - [04/Nov/2018:22:19:07 +0800] "GET /favicon.ico HTTP/1.1" 404 200 "http://127.0.0.1/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
127.0.0.1 - - [04/Nov/2018:22:20:36 +0800] "GET / HTTP/1.1" 304 0 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
127.0.0.1 - - [04/Nov/2018:22:27:14 +0800] "GET /z_stat.php?id=1256772952&web_id=1256772952 HTTP/1.1" 404 144 "http://appstore.deepin.org/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/538.1 (KHTML, like Gecko) deepin-appstore/4.0.9 Safari/538.1"
127.0.0.1 - - [04/Nov/2018:22:42:10 +0800] "GET / HTTP/1.1" 200 396 "-" "PostmanRuntime/7.3.0"
127.0.0.1 - - [04/Nov/2018:22:42:51 +0800] "GET / HTTP/1.1" 200 612 "-" "curl/7.60.0"
以前的理论和逻辑,在实验中都获得了验证,那么接下来咱们就经过黑名单策略将 Python 和 Curl 发起的请求过滤掉,只容许 Firefox 和 Postman 的请求经过,而且对被过滤的请求返回 403 错误提示。
反爬虫的过程如上图所示,至关于在服务器和资源之间创建了一道防火墙,在黑名单中的请求将会被当成垃圾丢弃掉。
Nginx 提供了配置文件以及对应的规则,容许咱们过滤掉不容许经过的请求,本次反爬虫咱们使用的就是它。Nginx 的配置文件一般放在/etc/nginx/
目录下,名为nginx.conf
,咱们经过查看配置文件来看一看,站点的配置文件在什么地方。再经过系统自带的编辑器(笔者所用系统自带 Nano,其余系统可能自带 Vim)来编辑配置文件。在配置文件中找到站点配置文件地址(笔者所用电脑存放路径为/etc/nginx/sites-enable
),再到站点配置文件中找到local
级别的配置,并在其中加上一下内容:
if ($http_user_agent ~* (Python|Curl)) {
return 403;
}
这段配置的释义是判断请求中请求头字符串中是否包含有 Python或者 Curl,若是包含则直接返回 403 错误,不然返回正常的资源。完成配置后保存,再经过命令:
sudo nginx -s reload
重复上面访问的步骤,经过浏览器、Python 代码、Postman 工具和 Curl发起请求。从返回的结果就能够看到,与刚才是有所区别的。
浏览器返回的是正常的页面,说明没有收到影响;
Python 代码的状态码变成了 403,而不是以前的 200
Postman 跟以前同样,返回了正确的内容;
Curl 跟 Python 同样,没法正确的访问资源,由于它们发起的请求都被过滤掉了。
提示:你能够继续修改 Nginx 的配置来进行测试,最终会发现结果会跟如今的同样:只要在黑名单中,请求就会被过滤掉而且返回 403 错误。
提示:这就是你平时编写爬虫代码时,须要在请求头中伪造浏览器的缘由。
经过上面的学习,咱们知道了 User-Agent 反爬虫这种手段的原理,而且经过 Nginx 来实现了反爬虫,接下来咱们一块儿学习如何绕过这种反爬虫措施。
在 Requests 库中,容许用户自定义请求头信息,因此咱们能够在请求头信息中将 User-Agent 的值改成浏览器的请求头标识,这样就可以欺骗 Nginx 服务器,达到绕过反爬虫的目的。将以前的 Python 代码改成:
import requests
# 伪造请求头信息 欺骗服务器
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:9527.0) Gecko/20100101 Firefox/9527.0"}
resp = requests.get("http://127.0.0.1", headers=headers)
print(resp.status_code)
代码中咱们用到的是 Firefox 浏览器的请求头信息,并且为了更好的观察效果,咱们能够更改浏览器的版本号(改为9527)以区分真实浏览器(这不会影响请求结果)。运行这个文件,看看获得的返回结果:
200
不是 403 了,说明已经绕过了这种类型的反爬虫(你看,这就是网上那些文章所写的,须要修改请求头信息才能绕过反爬虫,如今你明白是怎么回事了吧)。
一个测试也许不许确,你还能够经过 Postman 再来测试一下,还记得怎么作吗?
将须要过滤的标识(Postman)添加到 Nginx 的配置文件中
重载配置文件,使其生效
经过 Postman 发起请求看看是否会被过滤
再次使用 Postman 工具,而且携带上浏览器的标识再发起请求,看看是否会被过滤
小提示:这个练习若是你本身来作的话,会更容易理解其中的原理,而且能够加深你的映像。
回顾一下,整篇文章的过程:
咱们从遇到的反爬虫现象开始入手,接着学习了 User-Agent 这种反爬虫策略的原理,而且经过 Nginx 实现了反爬虫,最后经过 Python 代码示例和 Postman 示例来验证咱们的想法,最终清清楚楚、明明白白的了解到其中的原因,待目标改变了它的策略时,咱们也能够清楚的知道可使用哪些方法来绕过。
思考:示例中,我仅仅是使用 Python 编写爬虫来演示,那么 Java 写的爬虫呢?PHP 编写的爬虫呢?安卓端发起的请求呢?
你能够依次测试,结果确定让你小有收获。
若是你是一名爬虫爱好者或者初级爬虫工程师,同时你但愿提高本身的水平,咱们能够一块儿交流,扫码关注吧!
在微信公众号回复『反爬虫报告』便可得到下面这个反爬虫结果报告文档(PDF)
它会让你看起来更专业
报告部分截图:
报告的结构以下所示: