urllib模块

时间 2019-12-02

标签 urllib 模块繁體版

原文原文链接

在Python2中，有urllib和urllib2这两个库来实现请求的发送。而在Python3中，就只有urllib这个库了。html

首先，咱们要知道，urllib库是python内置的HTTP请求库，不须要额外的安装包。它主要包含如下4个模块的内容。python

request：最基本的http请求模块，用来模拟发送请求。
error：异常处理模块，若是出现错误，咱们能够捕获这些错误，保证程序不会终止。
parse: 一个工具模块，提供了许多的url处理模块，如拆分、解析、合并等。
robotparser：主要用来识别网站的robot.txt文件，而后判断网站是否可爬（用的少）

一. 发送请求urllib.request模块json

使用urllib.request模块，咱们就能够发送请求，获得响应。浏览器

1.urlopen()服务器

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)网络

url: 须要打开的网址
data：Post提交的数据
timeout：设置网站的访问超时时间
context：必须是ssl.SSLContext类型，指定ssl设置
cafile和capath：指定CA证书和路径

直接用urllib.request模块的urlopen（）获取页面，page的数据格式为bytes类型，须要decode（）解码，转换成str类型。数据结构

from urllib import request

response = request.urlopen(r'http://python.org/') # <http.client.HTTPResponse object at 0x00000000048BC908> HTTPResponse类型
page = response.read()
page = page.decode('utf-8')

urlopen返回对象提供方法：并发

read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操做
info()：返回HTTPMessage对象，表示远程服务器返回的头信息
getcode()：返回Http状态码。若是是http请求，200请求成功完成;404网址未找到
geturl()：返回请求的url

Py2中的代码：

import urllib2
# url 做为Request()方法的参数，构造并返回一个Request对象
request = urllib2.Request("http://www.baidu.com")
# Request对象做为urlopen()方法的参数，发送给服务器并接收响应
response = urllib2.urlopen(request)
html = response.read()
print html

2.使用requestsdom

（1）在咱们的第一个例子中，urlopen()参数就是一个URL地址。可是咱们若是须要执行更加复杂的操做，例如增长HTTP报头，就必须建立一个requests实例来做为urloprn()的参数；而须要访问的url地址则做为requests实例的参数。ide

`urllib.request.Request`(url, data=None, headers={}, origin_req_host=None,unverifuable = False,method=None)

url: 须要打开的网址
data：Post提交的数据,必须是bytes（字节流）类型。使用parse.urldecode()
headers：字典，请求头
origin_req_host：请求方的host或者IP地址
unverifuable：表示这个请求时没法验证的，默认false,
methed：请求方法，如get/post等

使用request()来包装请求，再经过urlopen()获取页面。

PS：py2中为`urllib.Request`(url, data=None, headers={}, method=None)

用来包装头部的数据：

- User-Agent ：这个头部能够携带以下几条信息：浏览器名和版本号、操做系统名和版本号、默认语言

- Referer：能够用来防止盗链，有一些网站图片显示来源http://***.com，就是检查Referer来鉴定的

- Connection：表示链接状态，记录Session的状态。

from urllib import request

url = r'http://www.lagou.com/zhaopin/Python/?labelWords=label'
headers = {
     'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                   r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
     'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
     'Connection': 'keep-alive'
 }

req = request.Request(url, headers=headers)
page = request.urlopen(req).read().decode('utf-8')
#page = page.decode('utf-8')
print(page)

（2）添加更多的Header信息

在 HTTP Request 中加入特定的 Header，来构造一个完整的HTTP请求消息。

能够经过调用Request.add_header() 添加/修改一个特定的header 也能够经过调用Request.get_header()来查看已有的header。

添加一个特定的header
随机添加/修改User-Agent

import urllib
url = "http://www.itcast.cn"
#IE 9.0 的 User-Agent
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
req = urllib.request.Request(url, headers = header)
#也能够经过调用Request.add_header() 添加/修改一个特定的header
req.add_header("Connection", "keep-alive")
也能够经过调用Request.get_header()来查看header信息
req.get_header(header_name="Connection")
response = urllib.request.urlopen(req)
print(response.code)     #能够查看响应状态码
html = response.read(),print(html)

import urllib2
import random

url = "http://www.itcast.cn"
ua_list = [
    "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(ua_list)
request = urllib2.Request(url)
#也能够经过调用Request.add_header() 添加/修改一个特定的header
request.add_header("User-Agent", user_agent)
# 第一个字母大写，后面的所有小写
request.get_header("User-agent") 
response = urllib2.urlopen(req)
html = response.read()
print html

3.post数据

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urlopen（）的data参数默认为None，当data参数不为空的时候，urlopen（）提交方式为Post。

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None)

urlencode（）主要做用就是将url附上要提交的数据。

Post的数据必须是bytes或者iterable of bytes，不能是str，所以须要进行encode（）编码

from urllib import request, parse

url = r'http://www.lagou.com/jobs/positionAjax.json?'
headers = {
    'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
    'Connection': 'keep-alive'
  }
data = {
    'first': 'true',
    'pn': 1,
    'kd': 'Python'
  }

data = parse.urlencode(data).encode('utf-8')
req = request.Request(url, headers=headers, data=data)
page = request.urlopen(req).read()
page = page.decode('utf-8')

4.get

get请求通常用于咱们向服务器获取数据，好比说以下练习。

from urllib import request,parse

def tiebaSpider(url, beginPage, endPage):
    """
        做用：负责处理url，分配每一个url去发送请求
        url：须要处理的第一个url
        beginPage: 爬虫执行的起始页面
        endPage: 爬虫执行的截止页面
    """
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        filename = "第" + str(page) + "页.html"
        # 组合为完整的 url，而且pn值每次增长50
        fullurl = url + "&pn=" + str(pn)
        #print fullurl
        # 调用loadPage()发送请求获取HTML页面
        html = loadPage(fullurl, filename)
        # 将获取到的HTML页面写入本地磁盘文件
        writeFile(html, filename)

def loadPage(url, filename):
    '''
        做用：根据url发送请求，获取服务器响应文件
        url：须要爬取的url地址
        filename: 文件名
    '''
    print("正在下载" + filename)
    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

    req = request.Request(url, headers = headers)
    response = request.urlopen(req)
    return(response.read())

def writeFile(html, filename):
    """
        做用：保存服务器响应文件到本地磁盘文件里
        html: 服务器响应文件
        filename: 本地磁盘文件名
    """
    print("正在存储" + filename)
    with open(filename, 'wb') as f:
        f.write(html)
    print("-" * 20)

# 模拟 main 函数
if __name__ == "__main__":
    kw = input("请输入须要爬取的贴吧:")
    # 输入起始页和终止页，str转成int类型
    beginPage = int(input("请输入起始页："))
    endPage = int(input("请输入终止页："))
    url = "http://tieba.baidu.com/f?"
    key = parse.urlencode({"kw" : kw})
    # 组合后的url示例：http://tieba.baidu.com/f?kw=lol
    url = url + key
    tiebaSpider(url, beginPage, endPage)

5.验证

有些网站在打开时，会弹出提示框，提示输入用户名和密码，验证成功后才能查看界面。若是咱们要请求这样的页面，咱们必需要借助HTTPBasicAuthHandler、build_opener来完成

from urllib.request import HTTPPasswordMgrWithDefaultRealm,HTTPBasicAuthHandler,build_opener

from urllib.error import URLError

u = 'uesrname'
p = 'password'
url = ''
p = HTTPPasswordMgrWithDefaultRealm()  # 创建该参数对象
p.add_password(None,url,u,p)  # 添加用户名和密码
auth_headler = HTTPBasicAuthHandler(p)  # 建立一个处理验证的handler
opener = build_opener(auth_headler)  # 使用build_opener建立一个opener
try:
    result = opener.open(url)
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

6.代理

在爬取网页的时候，免不了要使用代理，要使用代理，可使用ProxyHandler,其参数是一个字典，键是协议类型（http/https/ftp等），键值是代理的连接，能够添加多个代理。

实例1

from urllib.request import ProxyHandler,build_opener
from urllib.error import URLError

proxy_handler = ProxyHandler(  # 建立一个代理的handler
    {
        'http':'http://IP:port',
        'https':'https://IP:port',
    }
)
opener = build_opener(proxy_handler)  # 使用build_opener建立一个opener
try:
    result = opener.open('https://www.baidu.com')
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

实例2

import urllib2
# 构建了两个代理Handler，一个有代理IP，一个没有代理IP
httpproxy_handler = urllib2.ProxyHandler({"http" : "124.88.67.81:80"})
nullproxy_handler = urllib2.ProxyHandler({})
 
proxySwitch = True #定义一个代理开关
 
# 经过 urllib2.build_opener()方法使用这些代理Handler对象，建立自定义opener对象
# 根据代理开关是否打开，使用不一样的代理模式
if proxySwitch:  
    opener = urllib2.build_opener(httpproxy_handler)
else:
    opener = urllib2.build_opener(nullproxy_handler)
 
request = urllib2.Request("http://www.baidu.com/")
 
# 1. 若是这么写，只有使用opener.open()方法发送请求才使用自定义的代理，而urlopen()则不使用自定义代理。
response = opener.open(request)
 
# 2. 若是这么写，就是将opener应用到全局，以后全部的，不论是opener.open()仍是urlopen() 发送请求，都将使用自定义代理。
# urllib2.install_opener(opener)
# response = urlopen(request)
 
print response.read()

data = {

         'first': 'true',

         'pn': 1,

        'kd': 'Python'

proxy = request.ProxyHandler({'http': '5.22.195.215:80'})  # 设置proxy

opener = request.build_opener(proxy)  # 挂载opener

request.install_opener(opener)  # 安装opener

data = parse.urlencode(data).encode('utf-8')

page = opener.open(url, data).read()

page = page.decode('utf-8')

return pag

二.异常处理urllib.error

在咱们用urlopen或者opener.open方法发出一个请求时，若是由于网络等问题不能处理这个请求，就会产生错误。

1）URLError

URLError产生的缘由主要有：

- 1.没有网络链接

- 2.服务器链接失败

- 3.找不到指定的服务器

能够用try except 语句来获取相应的异常。

from urllib import request,parse,error
url = 'http://www.1232435erfefre.com'
req = request.Request(url)
try:
    resp = request.urlopen(req)
except error.URLError as e:
    print(e)
>>><urlopen error [Errno 11004] getaddrinfo failed>

2)HTTPError

HTTPError是URLError的子类，咱们每发出一个请求，服务器都会对应一个response应答，其中包含一个数字“响应状态码”。

若是urlopen或opener.open不能处理的，会产生一个HTTPError，对应相应的状态码，HTTP状态码表示HTTP协议所返回的响应的状态。

注意， 100-299范围的号码表示成功，因此咱们只能看到400-599的错误号码。

from urllib import request,parse,error

#url1 = 'http://www.1232435erfefre.com'
url2 = 'http://blog.baidu.com/itcast'
'''
req = request.Request(url2)
try:
    resp = request.urlopen(req)
except error.HTTPError as e:
    print(e,e.code）

3）改进版

因为HTTPError的父类是URLError,因此父类的异常均可以写在子类异常的后面，因此代码能够修改以下。

from urllib import request,parse,error

#url1 = 'http://www.1232435erfefre.com'
url2 = 'http://blog.baidu.com/itcast'

req = request.Request(url2)
try:
    resp = request.urlopen(req)
except error.HTTPError as e:
    print(e.code())
    print(e)
except error.URLError as e:
    print(e.reason,e)
else:
    print('hehe')

4）http服务器响应状态

1xx:信息
100 Continue
服务器仅接收到部分请求，可是一旦服务器并无拒绝该请求，客户端应该继续发送其他的请求。
101 Switching Protocols
服务器转换协议：服务器将听从客户的请求转换到另一种协议。
 
 
 
2xx:成功
200 OK
请求成功（其后是对GET和POST请求的应答文档）
201 Created
请求被建立完成，同时新的资源被建立。
202 Accepted
供处理的请求已被接受，可是处理未完成。
203 Non-authoritative Information
文档已经正常地返回，但一些应答头可能不正确，由于使用的是文档的拷贝。
204 No Content
没有新文档。浏览器应该继续显示原来的文档。若是用户按期地刷新页面，而Servlet能够肯定用户文档足够新，这个状态代码是颇有用的。
205 Reset Content
没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容。
206 Partial Content
客户发送了一个带有Range头的GET请求，服务器完成了它。
 
 
 
3xx:重定向
300 Multiple Choices
多重选择。连接列表。用户能够选择某连接到达目的地。最多容许五个地址。
301 Moved Permanently
所请求的页面已经转移至新的url。
302 Moved Temporarily
所请求的页面已经临时转移至新的url。
303 See Other
所请求的页面可在别的url下被找到。
304 Not Modified
未按预期修改文档。客户端有缓冲的文档并发出了一个条件性的请求（通常是提供If-Modified-Since头表示客户只想比指定日期更新的文档）。服务器告诉客户，原来缓冲的文档还能够继续使用。
305 Use Proxy
客户请求的文档应该经过Location头所指明的代理服务器提取。
306 Unused
此代码被用于前一版本。目前已再也不使用，可是代码依然被保留。
307 Temporary Redirect
被请求的页面已经临时移至新的url。
 
 
 
4xx:客户端错误
400 Bad Request
服务器未能理解请求。
401 Unauthorized
被请求的页面须要用户名和密码。
401.1
登陆失败。
401.2
服务器配置致使登陆失败。
401.3
因为 ACL 对资源的限制而未得到受权。
401.4
筛选器受权失败。
401.5
ISAPI/CGI 应用程序受权失败。
401.7
访问被 Web 服务器上的 URL 受权策略拒绝。这个错误代码为 IIS 6.0 所专用。
402 Payment Required
此代码尚没法使用。
403 Forbidden
对被请求页面的访问被禁止。
403.1
执行访问被禁止。
403.2
读访问被禁止。
403.3
写访问被禁止。
403.4
要求 SSL。
403.5
要求 SSL 128。
403.6
IP 地址被拒绝。
403.7
要求客户端证书。
403.8
站点访问被拒绝。
403.9
用户数过多。
403.10
配置无效。
403.11
密码更改。
403.12
拒绝访问映射表。
403.13
客户端证书被吊销。
403.14
拒绝目录列表。
403.15
超出客户端访问许可。
403.16
客户端证书不受信任或无效。
403.17
客户端证书已过时或还没有生效。
403.18
在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19
不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20
Passport 登陆失败。这个错误代码为 IIS 6.0 所专用。
404 Not Found
服务器没法找到被请求的页面。
404.0
没有找到文件或目录。
404.1
没法在所请求的端口上访问 Web 站点。
404.2
Web 服务扩展锁定策略阻止本请求。
404.3
MIME 映射策略阻止本请求。
405 Method Not Allowed
请求中指定的方法不被容许。
406 Not Acceptable
服务器生成的响应没法被客户端所接受。
407 Proxy Authentication Required
用户必须首先使用代理服务器进行验证，这样请求才会被处理。
408 Request Timeout
请求超出了服务器的等待时间。
409 Conflict
因为冲突，请求没法被完成。
410 Gone
被请求的页面不可用。
411 Length Required
"Content-Length" 未被定义。若是无此内容，服务器不会接受请求。
412 Precondition Failed
请求中的前提条件被服务器评估为失败。
413 Request Entity Too Large
因为所请求的实体的太大，服务器不会接受请求。
414 Request-url Too Long
因为url太长，服务器不会接受请求。当post请求被转换为带有很长的查询信息的get请求时，就会发生这种状况。
415 Unsupported Media Type
因为媒介类型不被支持，服务器不会接受请求。
416 Requested Range Not Satisfiable
服务器不能知足客户在请求中指定的Range头。
417 Expectation Failed
执行失败。
423
锁定的错误。
 
 
 
5xx:服务器错误
500 Internal Server Error
请求未完成。服务器遇到不可预知的状况。
500.12
应用程序正忙于在 Web 服务器上从新启动。
500.13
Web 服务器太忙。
500.15
不容许直接请求 Global.asa。
500.16
UNC 受权凭据不正确。这个错误代码为 IIS 6.0 所专用。
500.18
URL 受权存储不能打开。这个错误代码为 IIS 6.0 所专用。
500.100
内部 ASP 错误。
501 Not Implemented
请求未完成。服务器不支持所请求的功能。
502 Bad Gateway
请求未完成。服务器从上游服务器收到一个无效的响应。
502.1
CGI 应用程序超时。　·
502.2
CGI 应用程序出错。
503 Service Unavailable
请求未完成。服务器临时过载或当机。
504 Gateway Timeout
网关超时。
505 HTTP Version Not Supported
服务器不支持请求中指明的HTTP协议版本

三.解析连接urllib.parse模块

1.urlparse()

该方法实现url的识别和分段，将url分红6个部分，分别是scheme（协议），netloc（域名）、path（访问路径）、params（参数）、query（查询条件）、fragment（位置）

from urllib import parse

resule = parse.urlparse('https://blog.csdn.net/pleasecallmewhy/article/details/8924889')
print(resule)
# 结果：
'''
ParseResult(
  scheme='https',
    netloc='blog.csdn.net',
    path='/pleasecallmewhy/article/details/8924889',
    params='',
    query='',
    fragment=''
)
'''

2.urlunparse()

接受一个可迭代对象，如列表、元祖或者特定的数据结构，长度必须是6。和urlparse()方法的功能相反。

from urllib import parse

dt = ['http','www.baidu.com','ondex.html','user','a=8','comment']
print(parse.urlunparse(dt))
# http://www.baidu.com/ondex.html;user?a=8#comment

3.urlsplit()

这个方法和urlparse()方法很是的相似，只不过不在单独的解析params这一部分，只返回5个结果，params会和path合并。实例以下：

from urllib import parse

resule = parse.urlsplit('https://blog.csdn.net/pleasecallmewhy/article/details/8924889')
print(resule)
# 结果
'''
SplitResult(
    scheme='https', 
    netloc='blog.csdn.net', 
    path='/pleasecallmewhy/article/details/8924889', 
    query='', 
    fragment='')
'''

4.urlunsplit()

这个方法和urlinparse()方法很是的相似，也是将链接拼接成完整url,闯入的参数是一个可迭代对象，惟一区别是长度为5。

from urllib import parse

dt = ['http','www.baidu.com','ondex.html','user','a=8',]
print(parse.urlunsplit(dt))
# http://www.baidu.com/ondex.html?user#a=8

5. urljoin()

学习了前面的方法，咱们已经能够完成链接的拼接护着拆分，不过前提是必需要有特定的长度。此外，还可使用urljoin()方法。咱们能够提供一个base_url做为第一个参数，新的连接做为第二个参数，该方法会解析base_url中的scheme、netloc和path这3个参数的内容对新连接缺失的部分进行补充，若是存在，就用新连接的内容。最后返回结果。

from urllib import parse

print(parse.urljoin('http://www.baidu.com/','http://www.baidu.com/ondex.html?user#a=8'))
# http://www.baidu.com/ondex.html?user#a=8

6. urlencode()

此方法是最经常使用的方法，它将一个字典序列化为为get请求参数，在构造get请求参数是很是有用。

from urllib import parse

url = 'http://www.baidu.com/'
data = {'name':'wl','age':23}
url_page = url + parse.urlencode(data)
print(url_page)
# http://www.baidu.com/name=wl&age=23

7.parse_qs()

有了序列化，那确定hui有反序列化。将get请求中的数据转化为字典。

from urllib import parse

url = 'http://www.baidu.com/name=wl&age=23'
print(parse.parse_qs(url))
# {'age': ['23'], 'http://www.baidu.com/name': ['wl']}

8. parse_qsl()

用于将参数转化为元祖组成的列表。

from urllib import parse

url = 'http://www.baidu.com/name=wl&age=23'
print(parse.parse_qsl(url))
# [('http://www.baidu.com/name', 'wl'), ('age', '23')]

9.quote()

该方法将内容转化为URL编码的格式。URL中有中文时，有时可能会有乱码的问题，此时可使用该方法。

from urllib import parse

url = 'http://www.baidu.com/name=' + parse.quote('张三')
print(url)
# http://www.baidu.com/name=%E5%BC%A0%E4%B8%89

10.unquote()

该方法将URL编码格式的内容还原。方便的实现解码。

from urllib import parse

url = 'http://www.baidu.com/name=%E5%BC%A0%E4%B8%89'
print(parse.unquote(url))
# http://www.baidu.com/name=张三

urllib模块

urllib.request.Request(url, data=None, headers={}, origin_req_host=None,unverifuable = False,method=None)

PS：py2中为urllib.Request(url, data=None, headers={}, method=None)

`urllib.request.Request`(url, data=None, headers={}, origin_req_host=None,unverifuable = False,method=None)

PS：py2中为`urllib.Request`(url, data=None, headers={}, method=None)