小白学 Python 爬虫（12）：urllib 基础使用（二）

时间 2019-12-08

标签白学 python 爬虫 urllib 基础使用栏目 Python 繁體版

原文原文链接

人生苦短，我用 Pythonhtml

前文传送门：python

小白学 Python 爬虫（1）：开篇git

小白学 Python 爬虫（2）：前置准备（一）基本类库的安装github

小白学 Python 爬虫（3）：前置准备（二）Linux基础入门数据库

小白学 Python 爬虫（4）：前置准备（三）Docker基础入门json

小白学 Python 爬虫（5）：前置准备（四）数据库基础浏览器

小白学 Python 爬虫（6）：前置准备（五）爬虫框架的安装cookie

小白学 Python 爬虫（7）：HTTP 基础app

小白学 Python 爬虫（8）：网页基础框架

小白学 Python 爬虫（9）：爬虫基础

小白学 Python 爬虫（10）：Session 和 Cookies

小白学 Python 爬虫（11）：urllib 基础使用（一）

引言

上一篇咱们聊了 urlopen 的基本使用姿式，但这几个简单的参数并不足以构建一个完整的请求。对于复杂的请求，例如须要添加请求头就显得无能为力，这时咱们能够选择使用 Request 。

Request

官方文档：https://docs.python.org/zh-cn/3.7/library/urllib.request.html

首先来看一下 Request 的使用语法：

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)复制代码

url：请求的地址连接，只有这个是必传参数，其他都是可选参数。
data：若是这个参数须要传递，则必须传bytes（字节流）类型的。
headers：请求头信息，它是一个字典，能够在构造请求的时候经过 headers 之间构造，也能够调用 add_header() 添加。
originreqhost：发起请求一方的 host 名称或者也能够是 ip 地址。
unverifiable：指的是这个请求是不是没法验证的，默认是 False 。意思就是说用户没有足够权限来选择接收这个请求的结果。例如咱们请求一个HTML文档中的图片，可是咱们没有自动抓取图像的权限，这时 unverifiable 的值就是 True 。
method：请求方法，如 GET 、 POST 、 PUT 、 DELETE 等等。

仍是先来看一个简单的示例，使用 Request 爬取博客网站：

import urllib.request

request = urllib.request.Request('https://www.geekdigging.com/')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))复制代码

能够看到，这里仍是使用 urlopen() 来发起请求，只是参数再也不是以前的 URL 、 Data 、 timeout 等等信息，而是变成了 Request 类型的对象。

咱们来构建一个稍微复杂一点的请求。

import urllib.request, urllib.parse
import json

url = 'https://httpbin.org/post'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
    'Content-Type': 'application/json;encoding=utf-8',
    'Host': 'geekdigging.com'
}
data = {
    'name': 'geekdigging',
    'hello':'world'
}
data = bytes(json.dumps(data), encoding='utf8')
req = urllib.request.Request(url=url, data=data, headers=headers, method='POST')
resp = urllib.request.urlopen(req)
print(resp.read().decode('utf-8'))复制代码

结果以下：

{
  "args": {}, 
  "data": "{\"name\": \"geekdigging\", \"hello\": \"world\"}", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "41", 
    "Content-Type": "application/json;encoding=utf-8", 
    "Host": "geekdigging.com", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
  }, 
  "json": {
    "hello": "world", 
    "name": "geekdigging"
  }, 
  "origin": "116.234.254.11, 116.234.254.11", 
  "url": "https://geekdigging.com/post"
}复制代码

这里咱们经过 4 个参数构建了一个 Request 对象。

经过 url 指定了访问的连接，仍是前面一片文章中提到的测试连接。

在 headers 中指定了 User-Agent 、 Content-Type 和 Host 3 个参数。

在 data 中使用 json.dumps() 将一个 dict 转换成 json 格式，并经过 bytes() 最终转换为字节流。

最后，指定了访问方式为 POST 。

从最终的结果中，能够看到咱们前面的设定全都成功。

进阶操做

前面咱们使用 Request 完成了请求头的添加，若是咱们想处理 Cookies 和使用代理访问，就须要使用到更增强大的 Handler 了。 Handler 能够简单理解为各类功能的处理器，使用它，几乎能够为咱们作到全部有关 HTTP 请求的事情。

urllib.request 为咱们提供了 BaseHandler 类，它是全部其余 Handler 的父类，它提供了直接使用使用的方法以下：

add_parent()：添加director做为父类。
close()：关闭它的父类。
parent()：打开使用不一样的协议或处理错误。
default_open()：捕获全部的URL及子类，在协议打开以前调用。

接下来，就有各类 Handler 子类集成这个 BaseHandler 类：

HTTPDefaultErrorHandler：用来处理http响应错误，错误会抛出HTTPError类的异常。
HTTPRedirectHandler：用于处理重定向。
ProxyHandler：用于设置代理，默认代理为空。
HTTPPasswordMgr：用于管理密码，它维护用户名和密码表。
AbstractBasicAuthHandler：用于获取用户/密码对，而后重试请求来处理身份验证请求。
HTTPBasicAuthHandler：用于重试带有身份认证信息的请求。
HTTPCookieProcessor：用于处理cookies。

等等， urllib 为咱们提供的 BaseHandler 子类很是的多，小编这里就不一一列举，各位同窗能够经过访问官方文档来查看。

官方文档地址：https://docs.python.org/zh-cn/3.7/library/urllib.request.html#basehandler-objects

在介绍如何使用 Handler 以前，先介绍一个高级类： OpenerDirector 。

OpenerDirector 是用来处理URL的高级类，它分三个阶段来打开URL：

在每一个阶段中调用这些方法的顺序是经过对处理程序实例进行排序来肯定的;每一个使用此类方法的程序都会调用 protocolrequest() 方法来预处理请求，而后调用 protocolopen() 来处理请求;最后调用 protocol_response() 方法来处理响应。

咱们能够称 OpenerDirector 为 Opener 。咱们以前用过 urlopen() 这个方法，实际上它就是 urllib 为咱们提供的一个 Opener 。

Opener的方法包括：

add_handler(handler)：添加处理程序到连接中
open(url,data=None[,timeout])：打开给定的URL与urlopen()方法相同
error(proto,*args)：处理给定协议的错误

下面咱们来演示一下如何获取网站的 Cookies ：

import http.cookiejar, urllib.request

# 实例化cookiejar对象
cookie = http.cookiejar.CookieJar()
# 使用 HTTPCookieProcessor 构建一个 handler
handler = urllib.request.HTTPCookieProcessor(cookie)
# 构建Opener
opener = urllib.request.build_opener(handler)
# 发起请求
response = opener.open('https://www.baidu.com/')
print(cookie)
for item in cookie:
    print(item.name + " = " + item.value)复制代码

代码中具体的含义小编就再也不解释了，注释已经写得比较完善。最后获得的打印结果以下：

<CookieJar[<Cookie BAIDUID=48EA1A60922D7A30F711A420D3C5BA22:FG=1 for .baidu.com/>, <Cookie BIDUPSID=48EA1A60922D7A30DA2E4CBE7B81D738 for .baidu.com/>, <Cookie PSTM=1575167484 for .baidu.com/>, <Cookie BD_NOT_HTTPS=1 for www.baidu.com/>]>
BAIDUID = 48EA1A60922D7A30F711A420D3C5BA22:FG=1
BIDUPSID = 48EA1A60922D7A30DA2E4CBE7B81D738
PSTM = 1575167484
BD_NOT_HTTPS = 1复制代码

这里产生一个问题， cookie 既然能够打印，那么咱们能不能将 cookie 的输出保存到文件中呢？

答案固然是能够的，由于咱们知道， cookie 自己就是保存在文件中的。

# cookies 保存 Mozilla 型文件示例
filename = 'cookies_mozilla.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)
print('cookies_mozilla 保存成功')复制代码

这里咱们需修改以前的 CookieJar 为 MozillaCookieJar ，它在生成文件时会用到，是 CookieJar 的子类，能够用来处理 Cookies 和文件相关的事件，好比读取和保存 Cookies ，能够将 Cookies 保存成 Mozilla 型浏览器的 Cookies 格式。

在运行完成以后，咱们能够在当前程序的目录下看到生成了一个 cookies.txt 的文件，具体内容以下：

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

.baidu.com    TRUE    /    FALSE    1606703804    BAIDUID    0A7A76A3705A730B35A559B601425953:FG=1
.baidu.com    TRUE    /    FALSE    3722651451    BIDUPSID    0A7A76A3705A730BE64A1F6D826869B5
.baidu.com    TRUE    /    FALSE        H_PS_PSSID    1461_21102_30211_30125_26350_30239
.baidu.com    TRUE    /    FALSE    3722651451    PSTM    1575167805
.baidu.com    TRUE    /    FALSE        delPer    0
www.baidu.com    FALSE    /    FALSE        BDSVRTM    0
www.baidu.com    FALSE    /    FALSE        BD_HOME    0复制代码

小编比较懒，就不截图了，直接贴结果了。

固然咱们除了能够将 cookies 保存成为 Mozilla 型浏览器的格式，还能够将 cookies 保存成为 libwww-perl(LWP) 格式的 Cookies 文件。

要保存成LWP格式的Cookies文件，在声明的时候须要修改成 LWPCookieJar：

# cookies 保存 LWP 型文件示例
filename = 'cookies_lwp.txt'
cookie = http.cookiejar.LWPCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)
print('cookies_lwp 保存成功')复制代码

执行结果以下：

#LWP-Cookies-2.0
Set-Cookie3: BAIDUID="D634D45523004545C6E23691E7CE3894:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2020-11-30 02:45:24Z"; comment=bd; version=0
Set-Cookie3: BIDUPSID=D634D455230045458E6056651566B7E3; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-12-19 05:59:31Z"; version=0
Set-Cookie3: H_PS_PSSID=1427_21095_30210_18560_30125; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
Set-Cookie3: PSTM=1575168325; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2087-12-19 05:59:31Z"; version=0
Set-Cookie3: delPer=0; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
Set-Cookie3: BD_HOME=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0复制代码

能够看到，两种类型产生的 cookie 文件格式差别仍是很是大的。

已经生成了 cookie 文件，下一步咱们就是要在请求的时候添加 cookie ，示例代码以下：

# 请求是使用 Mozilla 型文件
cookie = http.cookiejar.MozillaCookieJar()
cookie.load('cookies_mozilla.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))复制代码

这里咱们使用 load() 方法来读取本地的Cookies文件，获取到了 Cookies 的内容。

前提是，咱们须要提早生成了 Mozilla 格式的 cookie 文件，而后读取 Cookies 以后使用一样的方法构建 Handler 和 Opener 便可。

请求正常的时候能够相应摆渡首页的源码，结果小编也就不贴了，属实有点长。

本篇的内容就到这里了，但愿各位同窗记得本身动手写代码哦~~~

示例代码

本系列的全部代码小编都会放在代码管理仓库 Github 和 Gitee 上，方便你们取用。

示例代码-Github

示例代码-Gitee

参考

https://www.cnblogs.com/zhangxinqi/p/9170312.html

https://cuiqingcai.com/5500.html

若是个人文章对您有帮助，请扫码关注下做者的公众号：获取最新干货推送：）