上一篇文章: Python3网络爬虫实战---1九、代理基本原理
下一篇文章: Python3网络爬虫实战---2一、使用Urllib:处理异常
学习爬虫,最初的操做即是来模拟浏览器向服务器发出一个请求,那么咱们须要从哪一个地方作起呢?请求须要咱们本身来构造吗?咱们须要关心请求这个数据结构的实现吗?咱们须要了解 HTTP、TCP、IP 层的网络传输通讯吗?咱们须要知道服务器的响应和应答原理吗?html
可能你不知道无从下手,不用担忧,Python 的强大之处就是提供了功能齐全的类库来帮助咱们完成这些请求,最基础的 HTTP 库有 Urllib、Httplib二、Requests、Treq 等。python
拿 Urllib 这个库来讲,有了它,咱们只须要关心请求的连接是什么,须要传的参数是什么以及可选的请求头设置就行了,不用深刻到底层去了解它究竟是怎样来传输和通讯的。有了它,两行代码就能够完成一个请求和响应的处理过程,获得网页内容,是否是感受方便极了?nginx
接下来,就让咱们从最基础的部分开始了解这些库的使用方法吧。json
在 Python2 版本中,有 Urllib 和 Urlib2 两个库能够用来实现Request的发送。而在 Python3 中,已经不存在 Urllib2 这个库了,统一为 Urllib,其官方文档连接为:https://docs.python.org/3/lib...segmentfault
咱们首先了解一下 Urllib 库,它是 Python 内置的 HTTP 请求库,也就是说咱们不须要额外安装便可使用,它包含四个模块:浏览器
在这里重点对前三个模块进行下讲解。服务器
使用 Urllib 的 request 模块咱们能够方便地实现 Request 的发送并获得 Response,咱们本节来看下它的具体用法。cookie
urllib.request 模块提供了最基本的构造 HTTP 请求的方法,利用它能够模拟浏览器的一个请求发起过程,同时它还带有处理authenticaton(受权验证),redirections(重定向),cookies(浏览器Cookies)以及其它内容。
咱们来感觉一下它的强大之处,以 Python 官网为例,咱们来把这个网页抓下来:网络
import urllib.request response = urllib.request.urlopen('https://www.python.org') print(response.read().decode('utf-8'))
看一下运行结果,如图 3-1 所示:数据结构
图 3-1 运行结果
真正的代码只有两行,咱们便完成了 Python 官网的抓取,输出了网页的源代码,获得了源代码以后呢?咱们想要的连接、图片地址、文本信息不就均可以提取出来了吗?
接下来咱们看下它返回的究竟是什么,利用 type() 方法输出 Response 的类型。
import urllib.request response = urllib.request.urlopen('https://www.python.org') print(type(response))
输出结果以下:
<class 'http.client.HTTPResponse'>
经过输出结果能够发现它是一个 HTTPResposne 类型的对象,它主要包含的方法有 read()、readinto()、getheader(name)、getheaders()、fileno() 等方法和 msg、version、status、reason、debuglevel、closed 等属性。
获得这个对象以后,咱们把它赋值为 response 变量,而后就能够调用这些方法和属性,获得返回结果的一系列信息了。
例如调用 read() 方法能够获得返回的网页内容,调用 status 属性就能够获得返回结果的状态码,如 200 表明请求成功,404 表明网页未找到等。
下面再来一个实例感觉一下:
import urllib.request response = urllib.request.urlopen('https://www.python.org') print(response.status) print(response.getheaders()) print(response.getheader('Server'))
运行结果以下:
200 [('Server', 'nginx'), ('Content-Type', 'text/html; charset=utf-8'), ('X-Frame-Options', 'SAMEORIGIN'), ('X-Clacks-Overhead', 'GNU Terry Pratchett'), ('Content-Length', '47397'), ('Accept-Ranges', 'bytes'), ('Date', 'Mon, 01 Aug 2016 09:57:31 GMT'), ('Via', '1.1 varnish'), ('Age', '2473'), ('Connection', 'close'), ('X-Served-By', 'cache-lcy1125-LCY'), ('X-Cache', 'HIT'), ('X-Cache-Hits', '23'), ('Vary', 'Cookie'), ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains')] nginx
可见,三个输出分别输出了响应的状态码,响应的头信息,以及经过调用 getheader() 方法并传递一个参数 Server 获取了 headers 中的 Server 值,结果是 nginx,意思就是服务器是 nginx 搭建的。
利用以上最基本的 urlopen() 方法,咱们能够完成最基本的简单网页的 GET 请求抓取。
若是咱们想给连接传递一些参数该怎么实现呢?咱们首先看一下 urlopen() 函数的API:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
能够发现除了第一个参数能够传递 URL 以外,咱们还能够传递其它的内容,好比 data(附加数据)、timeout(超时时间)等等。
下面咱们详细说明下这几个参数的用法。
data 参数是可选的,若是要添加 data,它要是字节流编码格式的内容,即 bytes 类型,经过 bytes() 方法能够进行转化,另外若是传递了这个 data 参数,它的请求方式就再也不是 GET 方式请求,而是 POST。
下面用一个实例来感觉一下:
import urllib.parse import urllib.request data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding='utf8') response = urllib.request.urlopen('http://httpbin.org/post', data=data) print(response.read())
在这里咱们传递了一个参数 word,值是 hello。它须要被转码成bytes(字节流)类型。其中转字节流采用了 bytes() 方法,第一个参数须要是 str(字符串)类型,须要用 urllib.parse 模块里的 urlencode() 方法来将参数字典转化为字符串。第二个参数指定编码格式,在这里指定为 utf8。
在这里请求的站点是 httpbin.org,它能够提供 HTTP 请求测试,本次咱们请求的 URL 为:http://httpbin.org/post,这个连接能够用来测试 POST 请求,它能够输出 Request 的一些信息,其中就包含咱们传递的 data 参数。
运行结果以下:
{ "args": {}, "data": "", "files": {}, "form": { "word": "hello" }, "headers": { "Accept-Encoding": "identity", "Content-Length": "10", "Content-Type": "application/x-www-form-urlencoded", "Host": "httpbin.org", "User-Agent": "Python-urllib/3.7" }, "json": null, "origin": "124.126.3.94, 124.126.3.94", "url": "https://httpbin.org/post" }
咱们传递的参数出如今了 form 字段中,这代表是模拟了表单提交的方式,以 POST 方式传输数据。
timeout 参数能够设置超时时间,单位为秒,意思就是若是请求超出了设置的这个时间尚未获得响应,就会抛出异常,若是不指定,就会使用全局默认时间。它支持 HTTP、HTTPS、FTP 请求。
下面来用一个实例感觉一下:
import urllib.request response = urllib.request.urlopen('http://httpbin.org/get', timeout=1) print(response.read())
运行结果以下:
During handling of the above exception, another exception occurred: Traceback (most recent call last): File "/var/py/python/urllibtest.py", line 4, in <module> response = urllib.request.urlopen('http://httpbin.org/get', timeout=1) ... urllib.error.URLError: <urlopen error timed out>
在这里咱们设置了超时时间是 1 秒,程序 1 秒事后服务器依然没有响应,因而抛出了 URLError 异常,它属于 urllib.error 模块,错误缘由是超时。
所以咱们能够经过设置这个超时时间来控制一个网页若是长时间未响应就跳过它的抓取,利用 try except 语句就能够实现这样的操做,代码以下:
import socket import urllib.request import urllib.error try: response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1) except urllib.error.URLError as e: if isinstance(e.reason, socket.timeout): print('TIME OUT')
在这里咱们请求了 http://httpbin.org/get 这个测试连接,设置了超时时间是 0.1 秒,而后捕获了 URLError 这个异常,而后判断异常缘由是 socket.timeout 类型,意思就是超时异常,就得出它确实是由于超时而报错,打印输出了 TIME OUT。
运行结果以下:
TIME OUT
常理来讲,0.1 秒内基本不可能获得服务器响应,所以输出了 TIME OUT 的提示。
这样,咱们能够经过设置 timeout 这个参数来实现超时处理,有时仍是颇有用的。
还有 context 参数,它必须是 ssl.SSLContext 类型,用来指定 SSL 设置。
cafile 和 capath 两个参数是指定 CA 证书和它的路径,这个在请求 HTTPS 连接时会有用。
cadefault 参数如今已经弃用了,默认为 False。
以上讲解了 urlopen() 方法的用法,经过这个最基本的函数能够完成简单的请求和网页抓取,如需更加详细了解,能够参见官方文档:https://docs.python.org/3/lib...。
由上咱们知道利用 urlopen() 方法能够实现最基本请求的发起,但这几个简单的参数并不足以构建一个完整的请求,若是请求中须要加入 Headers 等信息,咱们就能够利用更强大的 Request 类来构建一个请求。
首先咱们用一个实例来感觉一下 Request 的用法:
import urllib.request request = urllib.request.Request('https://python.org') response = urllib.request.urlopen(request) print(response.read().decode('utf-8'))
能够发现,咱们依然是用 urlopen() 方法来发送这个请求,只不过此次 urlopen() 方法的参数再也不是一个 URL,而是一个 Request 类型的对象,经过构造这个这个数据结构,一方面咱们能够将请求独立成一个对象,另外一方面可配置参数更加丰富和灵活。
下面咱们看一下 Request 均可以经过怎样的参数来构造,它的构造方法以下:
class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
添加 Request Headers 最经常使用的用法就是经过修改 User-Agent 来假装浏览器,默认的 User-Agent 是 Python-urllib,咱们能够经过修改它来假装浏览器,好比要假装火狐浏览器,你能够把它设置为:
Mozilla/5.0 (X11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11
下面咱们传入多个参数构建一个 Request 来感觉一下:
from urllib import request, parse url = 'http://httpbin.org/post' headers = { 'User-Agent': , 'Host': 'httpbin.org' } dict = { 'name': 'Germey' } data = bytes(parse.urlencode(dict), encoding='utf8') req = request.Request(url=url, data=data, headers=headers, method='POST') response = request.urlopen(req) print(response.read().decode('utf-8'))
在这里咱们经过四个参数构造了一个 Request,url 即请求 URL,在headers 中指定了 User-Agent 和 Host,传递的参数 data 用了 urlencode() 和 bytes() 方法来转成字节流,另外指定了请求方式为 POST。
运行结果以下:
{ "args": {}, "data": "", "files": {}, "form": { "name": "mark" }, "headers": { "Accept-Encoding": "identity", "Content-Length": "9", "Content-Type": "application/x-www-form-urlencoded", "Host": "httpbin.org", "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)" }, "json": null, "origin": "124.126.3.94, 124.126.3.94", "url": "https://httpbin.org/post" }
经过观察结果能够发现,咱们成功设置了 data,headers 以及 method。
另外 headers 也能够用 add_header() 方法来添加。
req = request.Request(url=url, data=data, method='POST') req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
如此一来,咱们就能够更加方便地构造一个 Request,实现请求的发送啦。
有没有发现,在上面的过程当中,咱们虽然能够构造 Request,可是一些更高级的操做,好比 Cookies 处理,代理设置等操做咱们该怎么办?
接下来就须要更强大的工具 Handler 登场了。
简而言之咱们能够把它理解为各类处理器,有专门处理登陆验证的,有处理 Cookies 的,有处理代理设置的,利用它们咱们几乎能够作到任何 HTTP 请求中全部的事情。
首先介绍下 urllib.request 模块里的 BaseHandler类,它是全部其余 Handler 的父类,它提供了最基本的 Handler 的方法,例如 default_open()、protocol_request() 方法等。
接下来就有各类 Handler 子类继承这个 BaseHandler 类,举例几个以下:
它们怎么来使用,不用着急,下面会有实例为你演示。
另一个比较重要的类就是 OpenerDirector,咱们能够称之为 Opener,咱们以前用过 urlopen() 这个方法,实际上它就是 Urllib为咱们提供的一个 Opener。
那么为何要引入 Opener 呢?由于咱们须要实现更高级的功能,以前咱们使用的 Request、urlopen() 至关于类库为你封装好了极其经常使用的请求方法,利用它们两个咱们就能够完成基本的请求,可是如今不同了,咱们须要实现更高级的功能,因此咱们须要深刻一层进行配置,使用更底层的实例来完成咱们的操做。
因此,在这里咱们就用到了比调用 urlopen() 的对象的更广泛的对象,也就是 Opener。
Opener 可使用 open() 方法,返回的类型和 urlopen() 一模一样。那么它和 Handler 有什么关系?简而言之,就是利用 Handler 来构建 Opener。
下面咱们用几个实例来感觉一下他们的用法:
有些网站在打开时它就弹出了一个框,直接提示你输入用户名和密码,认证成功以后才能查看页面,如图 3-2 所示:
图 3-2 认证页面
那么咱们若是要请求这样的页面怎么办呢?
借助于 HTTPBasicAuthHandler 就能够完成,代码以下:
from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener from urllib.error import URLError username = 'username' password = 'password' url = 'http://localhost:5000/' p = HTTPPasswordMgrWithDefaultRealm() p.add_password(None, url, username, password) auth_handler = HTTPBasicAuthHandler(p) opener = build_opener(auth_handler) try: result = opener.open(url) html = result.read().decode('utf-8') print(html) except URLError as e: print(e.reason)
在这里,首先实例化了一个 HTTPBasicAuthHandler 对象,参数是 HTTPPasswordMgrWithDefaultRealm 对象,它利用 add_password() 添加进去用户名和密码,这样咱们就创建了一个处理认证的 Handler。
接下来利用 build_opener() 方法来利用这个 Handler 构建一个 Opener,那么这个 Opener 在发送请求的时候就至关于已经认证成功了。
接下来利用 Opener 的 open() 方法打开连接,就能够完成认证了,在这里获取到的结果就是认证后的页面源码内容。
在作爬虫的时候免不了要使用代理,若是要添加代理,能够这样作:
from urllib.error import URLError from urllib.request import ProxyHandler, build_opener proxy_handler = ProxyHandler({ 'http': 'http://127.0.0.1:9743', 'https': 'https://127.0.0.1:9743' }) opener = build_opener(proxy_handler) try: response = opener.open('https://www.baidu.com') print(response.read().decode('utf-8')) except URLError as e: print(e.reason)
在此本地搭建了一个代理,运行在 9743 端口上。
在这里使用了 ProxyHandler,ProxyHandler 的参数是一个字典,键名是协议类型,好比 HTTP 仍是 HTTPS 等,键值是代理连接,能够添加多个代理。
而后利用 build_opener() 方法利用这个 Handler 构造一个 Opener,而后发送请求便可。
Cookies 的处理就须要 Cookies 相关的 Handler 了。
咱们先用一个实例来感觉一下怎样将网站的 Cookies 获取下来,代码以下:
import http.cookiejar, urllib.request cookie = http.cookiejar.CookieJar() handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') for item in cookie: print(item.name+"="+item.value)
首先咱们必须声明一个 CookieJar 对象,接下来咱们就须要利用 HTTPCookieProcessor 来构建一个 Handler,最后利用 build_opener() 方法构建出 Opener,执行 open() 函数便可。
运行结果以下:
BAIDUID=4329C4F53C9D52CA1E6AC6CA18DA356F:FG=1 BIDUPSID=4329C4F53C9D52CA1E6AC6CA18DA356F H_PS_PSSID=26522_1449_21090_29135_29238_28519_29098_29368_28834_29221_26350_20719 PSTM=1560743836 delPer=0 BDSVRTM=0 BD_HOME=0
能够看到输出了每一条 Cookie 的名称还有值。
不过既然能输出,那可不能够输出成文件格式呢?咱们知道 Cookies 实际也是以文本形式保存的。
答案固然是确定的,咱们用下面的实例来感觉一下:
filename = 'cookies.txt' cookie = http.cookiejar.MozillaCookieJar(filename) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') cookie.save(ignore_discard=True, ignore_expires=True)
这时的 CookieJar就须要换成 MozillaCookieJar,生成文件时须要用到它,它是 CookieJar 的子类,能够用来处理 Cookies 和文件相关的事件,读取和保存 Cookies,它能够将 Cookies 保存成 Mozilla 型浏览器的 Cookies 的格式。
运行以后能够发现生成了一个 cookies.txt 文件。
内容以下:
# Netscape HTTP Cookie File # http://curl.haxx.se/rfc/cookie_spec.html # This is a generated file! Do not edit. .baidu.com TRUE / FALSE 3708227627 BAIDUID 7270D7398BA0805A388F14699840D7DC:FG=1 .baidu.com TRUE / FALSE 3708227627 BIDUPSID 7270D7398BA0805A388F14699840D7DC .baidu.com TRUE / FALSE H_PS_PSSID 1430_21093_29135_29237_28518_29098_29368_28837_29221 .baidu.com TRUE / FALSE 3708227627 PSTM 1560743980 .baidu.com TRUE / FALSE delPer 0 www.baidu.com FALSE / FALSE BDSVRTM 0 www.baidu.com FALSE / FALSE BD_HOME 0
另外还有一个 LWPCookieJar,一样能够读取和保存 Cookies,可是保存的格式和 MozillaCookieJar 的不同,它会保存成与 libwww-perl(LWP) 的 Cookies 文件格式。
要保存成 LWP 格式的 Cookies 文件,能够在声明时就改成:
cookie = http.cookiejar.LWPCookieJar(filename)
生成的内容以下:
#LWP-Cookies-2.0 Set-Cookie3: BAIDUID="A19638BE46B11E183219DD2CFBC4557E:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0 Set-Cookie3: BIDUPSID=A19638BE46B11E183219DD2CFBC4557E; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0 Set-Cookie3: H_PS_PSSID=26524_1444_21120_29135_29237_28519_29098_29369_28832_29220; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0 Set-Cookie3: PSTM=1560744039; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-07-05 07:14:46Z"; version=0 Set-Cookie3: delPer=0; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0 Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0 Set-Cookie3: BD_HOME=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
由此看来生成的格式仍是有比较大的差别的。
那么生成了 Cookies 文件,怎样从文件读取并利用呢?
下面咱们以 LWPCookieJar 格式为例来感觉一下:
cookie = http.cookiejar.LWPCookieJar() cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True) handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(handler) response = opener.open('http://www.baidu.com') print(response.read().decode('utf-8'))
能够看到咱们这里调用了 load() 方法来读取本地的 Coookis 文件,获取到了 Cookies 的内容。不过前提是咱们首先利用生成了 LWPCookieJar 格式的 Cookies,获取到 Cookies 以后,后面一样的方法构建 Handler 和 Opener 便可。
运行结果正常输出百度网页的源代码。
好,经过如上用法,咱们能够实现绝大多数请求功能的设置了。
以上即是 Urllib 库中 request 模块的基本用法,若是有更多想实现的功能,能够参考官方文档的说明:https://docs.python.org/3/lib...。
上一篇文章: Python3网络爬虫实战---1九、代理基本原理
下一篇文章: Python3网络爬虫实战---2一、使用Urllib:处理异常