关于urllib、urllib2爬虫假装的总结

时间 2019-11-20

原文原文链接

站在网站管理的角度，若是在同一时间段，你们所有利用爬虫程序对本身的网站进行爬取操做，那么这网站服务器能不能承受这种负荷？确定不能啊，若是严重超负荷则会时服务器宕机（死机）的，对于一些商业型的网站，宕机一秒钟的损失都是不得了的，这不是一个管理员能承担的，对吧？那管理员会网站服务器作什么来优化呢？我想到的是，写一个脚本，当检测到一个IP访问的速度过快，报文头部并非浏览器的话，那么就拒绝服务，或者屏蔽IP等，这样就能够减小服务器的负担并让服务器正常进行。html

那么既然服务器作好了优化，但你知道这是对爬虫程序的优化，若是你是用浏览器来做为一个用户访问的话，服务器是不会拦截或者屏蔽你的，它也不敢拦你，为何，你如今是客户，它敢拦客户，不想继续经营了是吧？因此对于若是是一个浏览器用户的话，是能够正常访问的。python

因此想到方法了吗？是的，把程序伪形成一个浏览器啊，前面说过服务器会检测报文头部信息，若是是浏览器就不正常通行，若是是程序就拒绝服务。浏览器

那么报文是什么？头部信息又是什么？详细的就不解释了，这涉及到http协议和tcp/ip三次握手等等的网络基础知识，感兴趣的本身百度或者谷歌吧。服务器

本篇博文不扯远了，只说相关的重点——怎么查看头部信息。网络

User-Agent

其实我想有些朋友可能有疑惑，服务器是怎么知道咱们使用的是程序或者浏览器呢？它用什么来判断的？tcp

我使用的是火狐浏览器，鼠标右键-查看元素（有的浏览器是审查元素或者检查）工具

网络（有的是network）：优化

出现报文：网站

双击它，右边则会出现详细的信息，选择消息头（有的是headers）url

找到请求头（request headers），其中的User-Agent就是咱们头部信息：

看到是显示的

  User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0。 

  这就是咱们的头部信息。看到没，显示的信息，使用的操做系统内核是6.1，对应win7的64位，用的firefox56，就是火狐浏览器版本56 

  那么浏览器访问的都能察觉，天然咱们用的程序访问同样能够察觉，无论他是怎么识别的。其实若是我是管理员（若是我干了我学的专业的话，还就真的是管理员了），按个人想法的话，我直接定义个合法报文头都得是【Mozilla/5.0……】之类的就行，除了这些其余所有拒绝是否是就能够了？ 

  前面只用了urllib模块的urlopen方法打开网页，其下还有个功能就能够查看头部信息，但和浏览器查看的有些差异。 

 
 注意：如下代码都是在python2中，python3中不存在urllib和urllib2模块，在python3中，把相关的urllib模块组合成了一个包，都在urllib包下 

# -*- coding:utf-8 -*-
import urllib

url='http://www.baidu.com' #百度网址
html=urllib.urlopen(url)#利用模块urllib里的urlopen方法打开网页
print(dir(html))  #查看对象html的方法
print(urllib.urlopen) #查看对象urllib.urlopen的方法
print(urllib.urlopen()) #查看对象urllib.urlopen实例化后的方法

结果：

Traceback (most recent call last):
  File "D:\programme\PyCharm 5.0.3\helpers\pycharm\utrunner.py", line 121, in <module>
    modules = [loadSource(a[0])]
  File "D:\programme\PyCharm 5.0.3\helpers\pycharm\utrunner.py", line 41, in loadSource
    module = imp.load_source(moduleName, fileName)
  File "G:\programme\Python\python project\test.py", line 8, in <module>
    print(urllib.urlopen())
TypeError: urlopen() takes at least 1 argument (0 given)

['__doc__', '__init__', '__iter__', '__module__', '__repr__', 'close', 'code', 
'fileno', 'fp', 'getcode', 'geturl', 'headers', 'info', 'next', 'read', 'readline', 'readlines', 'url']

<function urlopen at 0x0297FD30>

由此，这里就必须注意，只有当urllib.urlopen()实例化后才有其后面的方法，urlopen会返回一个类文件对象，urllib.urlopen只是一个对象，而urllib.urlopen()必须传入一个参数，否则则报错。

  在前一章已经用过有效实例化后的read()方法，能够读取获得的网站信息。 

urlopen提供了以下方法：

read() , readline() , readlines() , fileno() , close() ：这些方法的使用方式与文件对象彻底同样
info()：返回一个httplib.HTTPMessage 对象，表示远程服务器返回的头信息
getcode()：返回Http状态码。若是是http请求，200表示请求成功完成;404表示网址未找到
geturl()：返回请求的url
headers：返回请求头部信息
code：返回状态码
url：返回请求的url

好的，详细的本身去研究了，本篇博文的重点终于来了，假装一个头部信息

伪造头部信息

因为urllib没有伪造头部信息的方法，因此这里得使用一个新的模块，urllib2

# -*- coding:utf-8 -*-
import urllib2

url='http://www.baidu.com'

head={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'
}  #头部信息，必须是一个字典
html=urllib2.Request(url,headers=head)
result=urllib2.urlopen(html)
print result.read()

或者你也能够这样：

# -*- coding:utf-8 -*-
import urllib2

url='http://www.baidu.com'


html=urllib2.Request(url)
html.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0')  #此时注意区别格式
result=urllib2.urlopen(html)
print result.read()

结果都同样的，我也就不展现了。

按照上面的方法就能够伪造请求头部信息。

那么你说，我怎么知道伪形成功了？还有不伪造头部信息时，显示的究竟是什么呢？介绍一个抓包工具——fidder，用这个工具就能够查看到底报文头部是什么了。这里就不展现了，本身下去常识了。而且我能够确切的保证，确实伪形成功了。

这样，咱们就把爬虫代码升级了一下，能够搞定普通的反爬虫限制