python—urllib2 中自定义 opener 详解

urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数建立自定义Opener对象。html

 代码以下:
build_opener([handler1 [ handler2, ... ]])
服务器

参数handler是Handler实例,经常使用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。cookie

build_opener ()返回的对象具备open()方法,与urlopen()函数的功能相同。函数

若是要修改http报头,能够用:ui

代码以下:
import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')
url

2. install_opener(opener)spa

安装不一样的opener对象做为urlopen()使用的全局opener。代理

3. 密码验证(HTTPBasicAuthHandler)htm

HTTPBasicAuthHandler()处理程序可用add_password()来设置密码。对象

代码以下:
h.add_password(realm,uri,user,passwd)

realm是与验证相关联的名称或描述信息,取决于远程服务器。uri是基URL。user和passwd分别指定用户名和密码。

代码以下:
import urllib2
auth=urllib2.HTTPBasicAuthHandler()
auth.add_password('Administrator','http://www.example.com','Dave','123456')
opener=urllib2.build_opener(auth)
u=opener.open('http://www.example.com/evilplan.html')

4. Cookie处理(HTTPCookieProcessor)

代码以下:
import urllib2,cookielib
cookie=cookielib.CookieJar()
cookiehand=urllib2.HTTPCookieProcessor(cookie)
opener=urllib2.build_opener(cookiehand)

5.代理(ProxyHandler)

ProxyHandler(proxies)参数proxies是一个字典,将协议名称(http,ftp)等映射到相应代理服务器的URL。

代码以下:

import urllib2
proxy=urllib2.ProxyHandler({'http':'http://someproxy.com:8080'})
auth=urlib2.HTTPBasicAuthHandler()
auth.add_password()
opener=build_opener(auth,proxy)

也能够在urlopen中使用代理

代码以下:import urllib2  proxy = 'http://%s:%s@%s' % ('userName', 'password', 'proxy')  inforMation = urllib2.urlopen("http://www.example.com", proxies={'http':proxy}) 

相关文章
相关标签/搜索