urllib 进阶

时间 2019-12-02

标签 urllib 进阶繁體版

原文原文链接

urlopen 里面能够传递四个参数html

urllib.urlopen(url[, data[, proxies[, context]]])python

url 连接git

data 传参github

数据传送分为POST和GET两种方式，两种方式有什么区别呢？编程

最重要的区别是GET方式是直接以连接形式访问，连接中包含了全部的参数，固然若是包含了密码的话是一种不安全的选择，不过你能够直观地看到本身提交了什么内容。POST则不会在网址上显示全部的参数，不过若是你想直接查看提交了什么就不太方便了，你们能够酌情选择。json

POST方式：

上面咱们说了data参数是干吗的？对了，它就是用在这里的，咱们传送的数据就是这个参数data，下面演示一下POST方式。浏览器

1 import urllib
2 import urllib2
3  
4 values = {"username":"12222222qq.com","password":"XXXX"}
5 data = urllib.urlencode(values)
6 url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
7 request = urllib2.Request(url,data)
8 response = urllib2.urlopen(request)
9 print response.read()

GET方式：

至于GET方式咱们能够直接把参数写到网址上面，直接构建一个带参数的URL出来便可。安全

import urllib
import urllib2
 
values={}
values['username'] = "12222222@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

构造以后的url服务器

http://passport.csdn.net/account/login?username=12222222%40qq.com&password=XXXX

构造Request

其实上面的urlopen参数能够传入一个request请求,它其实就是一个Request类的实例，构造时须要传入Url,Data等等的内容。好比上面的两行代码，咱们能够这么改写app

1 import urllib2
2  
3 request = urllib2.Request("http://www.baidu.com")
4 response = urllib2.urlopen(request)
5 print response.read()

运行结果是彻底同样的，只不过中间多了一个request对象，推荐你们这么写，由于在构建请求时还须要加入好多内容，经过构建一个request，服务器响应请求获得应答，这样显得逻辑上清晰明确。

设置Headers

有些网站会有反扒机制设置header模拟浏览器能够有效规避这一现象。

能够经过wireshark或者chrom获取浏览器发送的信息，其中agent就是请求的身份，若是没有写入请求身份，那么服务器不必定会响应，因此能够在headers中设置agent,例以下面的例子，这个例子只是说明了怎样设置的headers，小伙伴们看一下设置格式就好。

 1 import urllib  
 2 import urllib2  
 3  
 4 url = 'http://www.server.com/login'
 5 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
 6 values = {'username' : 'cqc',  'password' : 'XXXX' }  
 7 headers = { 'User-Agent' : user_agent }  
 8 data = urllib.urlencode(values)  
 9 request = urllib2.Request(url, data, headers)  
10 response = urllib2.urlopen(request)  
11 page = response.read()

对付防盗链，服务器会识别headers中的referer是否是它本身，若是不是，有的服务器不会响应，因此咱们还能够在headers中加入referer

1 headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' ,'Referer':'http://www.zhihu.com/articles' }

在传送请求时把headers传入Request参数里，这样就能应付防盗链了。

另外headers的一些属性，下面的须要特别注意一下：

User-Agent : 有些服务器或 Proxy 会经过该值来判断是不是浏览器发出的请求
Content-Type : 在使用 REST 接口时，服务器会检查该值，用来肯定 HTTP Body 中的内容该怎样解析。
application/xml ：在 XML RPC，如 RESTful/SOAP 调用时使用
application/json ：在 JSON RPC 调用时使用
application/x-www-form-urlencoded ：浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会致使服务器拒绝服务

其余的有必要的能够审查浏览器的headers内容，在构建时写入一样的数据便可

Proxy（代理）的设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数，若是访问次数过多，它会禁止你的访问。因此你能够设置一些代理服务器来帮助你作工做，每隔一段时间换一个代理，网站君都不知道是谁在捣鬼了，这酸爽！

下面一段代码说明了代理的设置用法

1 import urllib2
2 enable_proxy = True
3 proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
4 null_proxy_handler = urllib2.ProxyHandler({})
5 if enable_proxy:
6     opener = urllib2.build_opener(proxy_handler)
7 else:
8     opener = urllib2.build_opener(null_proxy_handler)
9 urllib2.install_opener(opener)

urlopen 一样可使用匿名代理。

1 # Use http://www.someproxy.com:3128 for HTTP proxying
2 proxies = {'http': 'http://www.someproxy.com:3128'}
3 filehandle = urllib.urlopen(some_url, proxies=proxies)
4 # Don't use any proxies
5 filehandle = urllib.urlopen(some_url, proxies={})
6 # Use proxies from environment - both versions are equivalent
7 filehandle = urllib.urlopen(some_url, proxies=None)
8 filehandle = urllib.urlopen(some_url)

指定代理和使用系统默认代理：

1 >>> import urllib
2 >>> proxies = {'http': 'http://proxy.example.com:8080/'}
3 >>> opener = urllib.FancyURLopener(proxies)
4 >>> f = opener.open("http://www.python.org")
5 >>> f.read()

1 >>> import urllib
2 >>> opener = urllib.FancyURLopener({})
3 >>> f = opener.open("http://www.python.org/")
4 >>> f.read()

Timeout 设置

1 import urllib2
2 response = urllib2.urlopen('http://www.baidu.com', timeout=10)

1 import urllib2
2 response = urllib2.urlopen('http://www.baidu.com',data, 10)

SSL

 1 import socket, ssl
 2 
 3 context = ssl.SSLContext(ssl.PROTOCOL_TLSv1)
 4 context.verify_mode = ssl.CERT_REQUIRED
 5 context.check_hostname = True
 6 context.load_default_certs()
 7 
 8 s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
 9 ssl_sock = context.wrap_socket(s, server_hostname='www.verisign.com')
10 ssl_sock.connect(('www.verisign.com', 443))

https://docs.python.org/2/library/urllib.html#urllib.urlencode

使用 HTTP 的 PUT 和 DELETE 方法

http协议有六种请求方法，get,head,put,delete,post,options，咱们有时候须要用到PUT方式或者DELETE方式请求。

PUT：这个方法比较少见。HTML表单也不支持这个。本质上来说， PUT和POST极为类似，都是向服务器发送数据，但它们之间有一个重要区别，PUT一般指定了资源的存放位置，而POST则没有，POST的数据存放位置由服务器本身决定。
DELETE：删除某一个资源。基本上这个也不多见，不过仍是有一些地方好比amazon的S3云服务里面就用的这个方法来删除资源。

若是要使用 HTTP PUT 和 DELETE ，只能使用比较低层的 httplib 库。虽然如此，咱们仍是能经过下面的方式，使 urllib2 可以发出 PUT 或DELETE 的请求，不过用的次数的确是少，在这里提一下。

1 import urllib2
2 request = urllib2.Request(uri, data=data)
3 request.get_method = lambda: 'PUT' # or 'DELETE'
4 response = urllib2.urlopen(request)

使用DebugLog

相似wireshark和调试工具能够将发送的交互包显示出来。

1 import urllib2
2 httpHandler = urllib2.HTTPHandler(debuglevel=1)
3 httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
4 opener = urllib2.build_opener(httpHandler, httpsHandler)
5 urllib2.install_opener(opener)
6 response = urllib2.urlopen('http://www.baidu.com')

other functuons

(string[, safe])
urllib.quote

1  >>> urllib.quote('https://docs.python.org/2/library/urllib.html#urllib.urlencode')
2  'https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode'
3  >>> urllib.quote_plus('https://docs.python.org/2/library/urllib.html#urllib.urlencode')
4  'https%3A%2F%2Fdocs.python.org%2F2%2Flibrary%2Furllib.html%23urllib.urlencode'
5  >>> urllib.quote_plus('https://docs.python.org/2/library/urllib.html#urllib.urlencode','/')
6  'https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode'
7  >>> urllib.unquote('https%3A//docs.python.org/2/library/urllib.html%23urllib.urlencode')
8  'https://docs.python.org/2/library/urllib.html#urllib.urlencode'

异常捕获

HTTPError

 1 100：继续  客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者若是请求已经完成，忽略这个响应。
 2 
 3 101： 转换协议  在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采起相似措施。
 4 
 5 102：继续处理   由WebDAV（RFC 2518）扩展的状态码，表明处理将被继续执行。
 6 
 7 200：请求成功      处理方式：得到响应的内容，进行处理
 8 
 9 201：请求完成，结果是建立了新资源。新建立资源的URI可在响应的实体中获得    处理方式：爬虫中不会遇到
10 
11 202：请求被接受，但处理还没有完成    处理方式：阻塞等待
12 
13 204：服务器端已经实现了请求，可是没有返回新的信 息。若是客户是用户代理，则无须为此更新自身的文档视图。    处理方式：丢弃
14 
15 300：该状态码不被HTTP/1.0的应用程序直接使用， 只是做为3XX类型回应的默认解释。存在多个可用的被请求资源。    处理方式：若程序中可以处理，则进行进一步处理，若是程序中不能处理，则丢弃
16 301：请求到的资源都会分配一个永久的URL，这样就能够在未来经过该URL来访问此资源    处理方式：重定向到分配的URL
17 
18 302：请求到的资源在一个不一样的URL处临时保存     处理方式：重定向到临时的URL
19 
20 304：请求的资源未更新     处理方式：丢弃
21 
22 400：非法请求     处理方式：丢弃
23 
24 401：未受权     处理方式：丢弃
25 
26 403：禁止     处理方式：丢弃
27 
28 404：没有找到     处理方式：丢弃
29 
30 500：服务器内部错误  服务器遇到了一个不曾预料的情况，致使了它没法完成对请求的处理。通常来讲，这个问题都会在服务器端的源代码出现错误时出现。
31 
32 501：服务器没法识别  服务器不支持当前请求所须要的某个功能。当服务器没法识别请求的方法，而且没法支持其对任何资源的请求。
33 
34 502：错误网关  做为网关或者代理工做的服务器尝试执行请求时，从上游服务器接收到无效的响应。
35 
36 503：服务出错   因为临时的服务器维护或者过载，服务器当前没法处理请求。这个情况是临时的，而且将在一段时间之后恢复。

HTTPError实例产生后会有一个code属性，这就是是服务器发送的相关错误号。
由于urllib2能够为你处理重定向，也就是3开头的代号能够被处理，而且100-299范围的号码指示成功，因此你只能看到400-599的错误号码。

下面咱们写一个例子来感觉一下，捕获的异常是HTTPError，它会带有一个code属性，就是错误代号，另外咱们又打印了reason属性，这是它的父类URLError的属性。

1 import urllib2
2  
3 req = urllib2.Request('http://blog.csdn.net/cqcre')
4 try:
5     urllib2.urlopen(req)
6 except urllib2.HTTPError, e:
7     print e.code
8     print e.reason

运行结果：

1 403
2 Forbidden

错误代号是403，错误缘由是Forbidden，说明服务器禁止访问。

咱们知道，HTTPError的父类是URLError，根据编程经验，父类的异常应当写到子类异常的后面，若是子类捕获不到，那么能够捕获父类的异常，因此上述的代码能够这么改写

 1 import urllib2
 2  
 3 req = urllib2.Request('http://blog.csdn.net/cqcre')
 4 try:
 5     urllib2.urlopen(req)
 6 except urllib2.HTTPError, e:
 7     print e.code
 8 except urllib2.URLError, e:
 9     print e.reason
10 else:
11     print "OK"

若是捕获到了HTTPError，则输出code，不会再处理URLError异常。若是发生的不是HTTPError，则会去捕获URLError异常，输出错误缘由。

另外还能够加入 hasattr属性提早对属性进行判断，代码改写以下

 1 import urllib2
 2  
 3 req = urllib2.Request('http://blog.csdn.net/cqcre')
 4 try:
 5     urllib2.urlopen(req)
 6 except urllib2.URLError, e:
 7     if hasattr(e,"code"):
 8         print e.code
 9     if hasattr(e,"reason"):
10         print e.reason
11 else:
12     print "OK"