Go 爬虫之 HTTP 请求 QuickStart

时间 2019-12-16

原文原文链接

前几天在 "知乎想法" 谈到了一个话题，如何模仿学习，举了经过 net/http client 模仿 Pyhton 的requests的例子。但并未实践，难道想法真的只能是想法吗？固然不是，因而我决定先暂停一周 GO 笔记，来实践下本身的想法。html

有些新的知识，咱们能够经过模仿学习git

本文将经过 GO 实现 requests 的 quick start 文档中的全部例子，系统学习http client的使用。虽然标题是 quick start，但其实内容挺多的。github

快速体验

首先，咱们来发起一个 GET 请求，代码很是简单。以下：golang

func get() {
	r, err := http.Get("https://api.github.com/events")
	if err != nil {
		panic(err)
	}
	defer func() { _ = r.Body.Close() }()

	body, _ := ioutil.ReadAll(r.Body)
	fmt.Printf("%s", body)
}
复制代码

经过 http.Get 方法，获取到了一个 Response 和一个 error ，即 r 和 err。经过 r 咱们能获取响应的信息，err 能够实现错误检查。json

r.Body 被读取后须要关闭，能够defer来作这件事。内容的读取可经过 ioutil.ReadAll实现。api

请求方法

除了GET，HTTP还有其余一系列方法，包括POST、PUT、DELETE、HEAD、OPTIONS。快速体验中的GET是经过一种便捷的方式实现的，它隐藏了不少细节。这里暂时先不用它。数组

咱们先来介绍通用的方法，以帮咱们实现全部HTTP方法的请求。主要涉及两个重要的类型，Client 和 Request。bash

Client 便是发送 HTTP 请求的客户端，请求的执行都是由 Client 发起。它提供了一些便利的请求方法，好比咱们要发起一个Get请求，可经过 client.Get(url) 实现。更通用的方式是经过 client.Do(req) 实现，req 属于 Request 类型。微信

Request 是用来描述请求信息的结构体，好比请求方法、地址、头部等信息，咱们均可以经过它来设置。Request 的建立能够经过 http.NewRequest 实现。cookie

接下来列举 HTTP 全部方法的实现代码。

GET

r, err := http.DefaultClient.Do(
	http.NewRequest(http.MethodGet, "https://api.github.com/events", nil))
复制代码

POST

r, err := http.DefaultClient.Do(
	http.NewRequest(http.MethodPost, "http://httpbin.org/post", nil))
复制代码

PUT

r, err := http.DefaultClient.Do(
	http.NewRequest(http.MethodPut, "http://httpbin.org/put", nil))
复制代码

DELETE

r, err := http.DefaultClient.Do(
	http.NewRequest(http.MethodDelete, "http://httpbin.org/delete", nil))
复制代码

HEAD

r, err := http.DefaultClient.Do(
	http.NewRequest(http.MethodHead, "http://httpbin.org/get", nil))
复制代码

OPTIONS

r, err := http.DefaultClient.Do(
	http.NewRequest(http.MethodOptions, "http://httpbin.org/get", nil))
复制代码

上面展现了HTTP全部方法的实现。这里还几点须要说明。

DefaultClient，它是 net/http 包提供了默认客户端，通常的请求咱们无需建立新的 Client，使用默认便可。

GET、POST 和 HEAD 的请求，GO提供了更便捷的实现方式，Request 不用手动建立。

示例代码，每一个 HTTP 请求方法都有两种实现。

GET

r, err := http.DefaultClient.Get("http://httpbin.org/get")
r, err := http.Get("http://httpbin.org/get")
复制代码

POST

bodyJson, _ := json.Marshal(map[string]interface{}{
	"key": "value",
})
r, err := http.DefaultClient.Post(
	"http://httpbin.org/post",
	"application/json",
	strings.NewReader(string(bodyJson)),
)
r, err := http.Post(
	"http://httpbin.org/post",
	"application/json",
	strings.NewReader(string(bodyJson)),
)
复制代码

这里顺便演示了如何向 POST 接口提交 JSON 数据的方式，主要 content-type 的设置，通常JSON接口的 content-type 为 application/json。

HEAD

r, err := http.DefaultClient.Head("http://httpbin.org/get")
r, err := http.Head("http://httpbin.org/get")
复制代码

若是看了源码，你会发现，http.Get 中调用就是 http.DefaultClient.Get，是同一个意思，只是为了方便，提供这种调用方法。Head 和 Post 也是如此。

URL参数

经过将键/值对置于 URL 中，咱们能够实现向特定地址传递数据。该键/值将跟在一个问号的后面，例如 httpbin.org/get?key=val… 手工构建 URL 会比较麻烦，咱们能够经过 net/http 提供的方法来实现。

举个栗子，好比你想传递 key1=value1 和 key2=value2 到 httpbin.org/get。代码以下：

req, err := http.NewRequest(http.MethodGet, "http://httpbin.org/get", nil)
if err != nil {
	panic(err)
}

params := make(url.Values)
params.Add("key1", "value1")
params.Add("key2", "value2")

req.URL.RawQuery = params.Encode()

// URL 的具体状况 http://httpbin.org/get?key1=value1&key2=value2
// fmt.Println(req.URL.String()) 

r, err := http.DefaultClient.Do(req)
复制代码

url.Values 能够帮助组织 QueryString，查看源码发现 url.Values 实际上是 map[string][]string。调用 Encode 方法，将组织的字符串传递给请求 req 的 RawQuery。经过 url.Values也能够设置一个数组参数，相似以下的形式：

httpbin.org/get?key1=va…

怎么作呢？

params := make(url.Values)
params.Add("key1", "value1")
params.Add("key2", "value2")
params.Add("key2", "value3")
复制代码

观察最后一行代码。其实，只要在 key2 上再增长一个值就能够了。

响应信息

执行请求成功，如何查看响应信息。要查看响应信息，能够大概了解下，响应一般哪些内容？常见的有主体内容（Body）、状态信息（Status）、响应头部（Header）、内容编码（Encoding）等。

Body

其实，在最开始的时候已经演示Body读取的过程。响应内容的读取可经过 ioutil 实现。

body, err := ioutil.ReadAll(r.Body)
复制代码

响应内容多样，若是是 json，能够直接使用 json.Unmarshal 进行解码，JSON知识不介绍了。

r.Body 实现了 io.ReadeCloser 接口，为减小资源浪费要及时释放，能够经过 defer 实现。

defer func() { _ = r.Body.Close() }()
复制代码

StatusCode

响应信息中，除了 Body 主体内容，还有其余信息，好比 status code 和 charset 等。

r.StatusCode
r.Status
复制代码

r.StatusCode 是 HTTP 返回码，Status 是返回状态描述。

Header

响应头信息经过 Response.Header 便可获取，要说明的一点是，响应头的 Key 是不区分大小写。

r.Header.Get("content-type")
r.Header.Get("Content-Type")
复制代码

你会发现 content-type 和 Content-Type 获取的内容是彻底同样的。

Encoding

如何识别响应内容编码呢？咱们须要借助 golang.org/x/net/html/… 包实现。先来定义一个函数，代码以下：

func determineEncoding(r *bufio.Reader) encoding.Encoding {
	bytes, err := r.Peek(1024)
	if err != nil {
		fmt.Printf("err %v", err)
		return unicode.UTF8
	}

	e, _, _ := charset.DetermineEncoding(bytes, "")

	return e
}
复制代码

怎么调用它？

bodyReader := bufio.NewReader(r.Body)
e := determineEncoding(bodyReader)
fmt.Printf("Encoding %v\n", e)

decodeReader := transform.NewReader(bodyReader, e.NewDecoder())
复制代码

利用 bufio 生成新的 reader，而后利用 determineEncoding 检测内容编码，并经过 transform 进行编码转化。

图片下载

若是访问内容是一张图片，咱们如何把它下载下来呢？好比以下地址的图片。

pic2.zhimg.com/v2-5e8b41ca…

其实很简单，只须要建立新的文件并把响应内容保存进去便可。

f, err := os.Create("as.jpg")
if err != nil {
	panic(err)
}
defer func() { _ = f.Close() }()

_, err = io.Copy(f, r.Body)
if err != nil {
	panic(err)
}
复制代码

r 即 Response，利用 os 建立了新的文件，而后再经过 io.Copy 将响应的内容保存进文件中。

定制请求头

如何为请求定制请求头呢？Request 其实已经提供了相应的方法，经过 req.Header.Add 便可完成。

举个例子，假设咱们将要访问 httpbin.org/get，但这个地址针对 user-agent 设置了发爬策略。咱们须要修改默认的 user-agent。

示例代码：

req, err := http.NewRequest(http.MethodGet, "http://httpbin.org/get", nil)
if err != nil {
	panic(err)
}

req.Header.Add("user-agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0)")
复制代码

如上即可完成任务。

复杂的POST请求

前面已经展现过了向 POST 接口提交 JSON 数据的方式。接下来介绍下另外几种向 POST 接口提交数据的方式，即表单提交和文件提交。

表单提交

表单提交是一个很经常使用的功能，故而在 net/http 中，除了提供标准的用法外，还给咱们提供了简化的方法。

咱们先来介绍个标准的实现方法。

举个例子，假设要向 httpbin.org/post 提交 name 为 poloxue 和 password 为 123456 的表单。

payload := make(url.Values)
payload.Add("name", "poloxue")
payload.Add("password", "123456")
req, err := http.NewRequest(
	http.MethodPost,
	"http://httpbin.org/post",
	strings.NewReader(payload.Encode()),
)
if err != nil {
	panic(err)
}
req.Header.Add("Content-Type", "application/x-www-form-urlencoded")

r, err := http.DefaultClient.Do(req)
复制代码

POST 的 payload 是形如 name=poloxue&password=123456 的字符串，故而咱们能够经过 url.Values 进行组织。

提交给 NewRequest 的内容必须是实现 Reader 接口的类型，因此须要 strings.NewReader转化下。

Form 表单提交的 content-type 要是 application/x-www-form-urlencoded，也要设置下。

复杂的方式介绍完了。接着再介绍简化的方式，其实表单提交只需调用 http.PostForm 便可完成。示例代码以下：

payload := make(url.Values)
payload.Add("name", "poloxue")
payload.Add("password", "123456")
r, err := http.PostForm("http://httpbin.org/post", form)
复制代码

竟是如此的简单。

提交文件

文件提交应该是 HTTP 请求中较为复杂的内容了。其实说难也不难，区别于其余的请求，咱们要花些精力来读取文件，组织提交POST的数据。

举个例子，假设如今我有一个图片文件，名为 as.jpg，路径在 /Users/polo 目录下。如今要将这个图片提交给 httpbin.org/post。

咱们要先组织 POST 提交的内容，代码以下：

filename := "/Users/polo/as.jpg"

f, err := os.Open(filename)
if err != nil {
	panic(err)
}
defer func() { _ = f.Close() }()

uploadBody := &bytes.Buffer{}
writer := multipart.NewWriter(uploadBody)

fWriter, err := writer.CreateFormFile("uploadFile", filename)
if err != nil {
	fmt.Printf("copy file writer %v", err)
}

_, err = io.Copy(fWriter, f)
if err != nil {
	panic(err)
}

fieldMap := map[string]string{
	"filename": filename,
}
for k, v := range fieldMap {
	_ = writer.WriteField(k, v)
}

err = writer.Close()
if err != nil {
	panic(err)
}
复制代码

我认为，数据组织分为几步完成，以下：

第一步，打开将要上传的文件，使用 defer f.Close() 作好资源释放的准备；第二步，建立存储上传内容的 bytes.Buffer，变量名为 uploadBody；第三步，经过 multipart.NewWriter 建立 writer，用于向 buffer中写入文件提供的内容；第四步，经过writer.CreateFormFile 建立上传文件并经过 io.Copy 向其中写入内容；最后，经过 writer.WriteField 添加其余的附加信息，注意最后要把 writer 关闭；至此，文件上传的数据就组织完成了。接下来，只需调用 http.Post 方法便可完成文件上传。

r, err := http.Post("http://httpbin.org/post", writer.FormDataContentType(), uploadBody)
复制代码

有一点要注意，请求的content-type须要设置，而经过 writer.FormDataContentType() 即能得到上传文件的类型。

到此，文件提交也完成了，不知道有没有很是简单的感受。

Cookie

主要涉及两部份内容，即读取响应的 cookie 与设置请求的 cookie。响应的 cookie 获取方式很是简单，直接调用 r.Cookies 便可。

重点来讲说，如何设置请求 cookie。cookie设置有两种方式，一种设置在 Client 上，另外一种是设置在 Request 上。

Client 上设置 Cookie

直接看示例代码：

cookies := make([]*http.Cookie, 0)

cookies = append(cookies, &http.Cookie{
	Name:   "name",
	Value:  "poloxue",
	Domain: "httpbin.org",
	Path:   "/cookies",
})
cookies = append(cookies, &http.Cookie{
	Name:   "id",
	Value:  "10000",
	Domain: "httpbin.org",
	Path:   "/elsewhere",
})

url, err := url.Parse("http://httpbin.org/cookies")
if err != nil {
	panic(err)
}

jar, err := cookiejar.New(nil)
if err != nil {
	panic(err)
}
jar.SetCookies(url, cookies)

client := http.Client{Jar: jar}

r, err := client.Get("http://httpbin.org/cookies")
复制代码

代码中，咱们首先建立了 http.Cookie 切片，而后向其中添加了 2 个 Cookie 数据。这里经过 cookiejar，保存了 2 个新建的 cookie。

此次咱们不能再使用默认的 DefaultClient 了，而是要建立新的 Client，并将保存 cookie 信息的 cookiejar 与 client 绑定。接下里，只须要使用新建立的 Client 发起请求便可。

请求上设置 Cookie

请求上的 cookie 设置，经过 req.AddCookie便可实现。示例代码：

req, err := http.NewRequest(http.MethodGet, "http://httpbin.org/cookies", nil)
if err != nil {
	panic(err)
}

req.AddCookie(&http.Cookie{
	Name:   "name",
	Value:  "poloxue",
	Domain: "httpbin.org",
	Path:   "/cookies",
})

r, err := http.DefaultClient.Do(req)
复制代码

挺简单的，没什么要介绍的。

cookie 设置 Client 和设置在 Request 上有何区别？一个最易想到的区别就是，Request 的 cookie 只是当次请求失效，而 Client 上的 cookie 是随时有效的，只要你用的是这个新建立的 Client。

重定向和请求历史

默认状况下，全部类型请求都会自动处理重定向。

Python 的 requests 包中 HEAD 请求是不重定向的，但测试结果显示 net/http 的 HEAD 是自动重定向的。

net/http 中的重定向控制能够经过 Client 中的一个名为 CheckRedirect 的成员控制，它是函数类型。定义以下：

type Client struct {
	...
	CheckRedirect func(req *Request, via []*Request) error
	...
}
复制代码

接下来，咱们来看看怎么使用。

假设咱们要实现的功能：为防止发生循环重定向，重定向次数定义不能超过 10 次，并且要记录历史 Response。

示例代码：

var r *http.Response
history := make([]*http.Response, 0)

client := http.Client{
	CheckRedirect: func(req *http.Request, hrs []*http.Request) error {
		if len(hrs) >= 10 {
			return errors.New("redirect to many times")
		}

		history = append(history, req.Response)
		return nil
	},
}

r, err := client.Get("http://github.com")
复制代码

首先建立了 http.Response 切片的变量，名称为 history。接着在 http.Client 中为 CheckRedirect 赋予一个匿名函数，用于控制重定向的行为。CheckRedirect 函数的第一个参数表示下次将要请求的 Request，第二个参数表示已经请求过的 Request。

当发生重定向时，当前的 Request 会保存上次请求的 Response，故而此处能够将 req.Response 追加到 history 变量中。

超时设置

Request 发出后，若是服务端迟迟没有响应，那岂不是很尴尬。那么咱们就会想，可否为请求设置超时规则呢？毫无疑问，固然能够。

超时能够分为链接超时和响应读取超时，这些均可以设置。但正常状况下，并不想有那么明确的区别，那么也能够设置个总超时。

总超时

总的超时时间的设置是绑定在 Client 的一个名为 Timeout 的成员之上，Timeout 是 time.Duration。

假设这是超时时间为 10 秒，示例代码：

client := http.Client{
	Timeout:   time.Duration(10 * time.Second),
}
复制代码

链接超时

链接超时可经过 Client 中的 Transport 实现。Transport 中有个名为 Dial 的成员函数，可用设置链接超时。Transport 是 HTTP 底层的数据运输者。

假设设置链接超时时间为 2 秒，示例代码：

t := &http.Transport{
	Dial: func(network, addr string) (net.Conn, error) {
		timeout := time.Duration(2 * time.Second)
		return net.DialTimeout(network, addr, timeout)
	},
}
复制代码

在 Dial 的函数中，咱们经过 net.DialTimeout 进行网络链接，实现了链接超时功能。

读取超时

读取超时也要经过 Client 的 Transport 设置，好比设置响应的读取为 8 秒。

示例代码：

t := &http.Transport{
	ResponseHeaderTimeout: time.Second * 8,
}
综合全部，Client 的建立代码以下：

t := &http.Transport{
	Dial: func(network, addr string) (net.Conn, error) {
		timeout := time.Duration(2 * time.Second)
		return net.DialTimeout(network, addr, timeout)
	},
	ResponseHeaderTimeout: time.Second * 8,
}
client := http.Client{
	Transport: t,
	Timeout:   time.Duration(10 * time.Second),
}
复制代码

除了上面的几个超时设置，Transport 还有其余一些关于超时的设置，能够看下 Transport 的定义，还有发现三个与超时相关的定义：

// IdleConnTimeout is the maximum amount of time an idle
// (keep-alive) connection will remain idle before closing
// itself.
// Zero means no limit.
IdleConnTimeout time.Duration

// ResponseHeaderTimeout, if non-zero, specifies the amount of
// time to wait for a server's response headers after fully // writing the request (including its body, if any). This // time does not include the time to read the response body. ResponseHeaderTimeout time.Duration // ExpectContinueTimeout, if non-zero, specifies the amount of // time to wait for a server's first response headers after fully
// writing the request headers if the request has an
// "Expect: 100-continue" header. Zero means no timeout and
// causes the body to be sent immediately, without
// waiting for the server to approve.
// This time does not include the time to send the request header.
ExpectContinueTimeout time.Duration
复制代码

分别是 IdleConnTimeout （链接空闲超时时间，keep-live 开启）、TLSHandshakeTimeout （TLS 握手时间）和 ExpectContinueTimeout（彷佛已含在 ResponseHeaderTimeout 中了，看注释）。

到此，完成了超时的设置。相对于 Python requests 确实是复杂不少。

请求代理

代理仍是挺重要的，特别对于开发爬虫的同窗。那 net/http 怎么设置代理？这个工做仍是要依赖 Client 的成员 Transport 实现，这个 Transport 仍是挺重要的。

Transport 有个名为 Proxy 的成员，具体看看怎么使用吧。假设咱们要经过设置代理来请求谷歌的主页，代理地址为 http://127.0.0.1:8087。

示例代码：

proxyUrl, err := url.Parse("http://127.0.0.1:8087")
if err != nil {
	panic(err)
}
t := &http.Transport{
	Proxy:           http.ProxyURL(proxyUrl),
	TLSClientConfig: &tls.Config{InsecureSkipVerify: true},
}
client := http.Client{
	Transport: t,
	Timeout:   time.Duration(10 * time.Second),
}

r, err := client.Get("https://google.com")
复制代码

主要关注 http.Transport 建立的代码。两个参数，分时 Proxy 和 TLSClientConfig，分别用于设置代理和禁用 https 验证。我发现其实不设置 TLSClientConfig 也能够请求成功，具体缘由没仔细研究。

错误处理

错误处理其实都不用怎么介绍，GO中的通常错误主要是检查返回的error，HTTP 请求也是如此，它会视状况返回相应错误信息，好比超时、网络链接失败等。

示例代码中的错误都是经过 panic 抛出去的，真实的项目确定不是这样的，咱们须要记录相关日志，时刻作好错误恢复工做。

总结

本文以 Python 的 requests 文档为指导方向，整理了 requests 快速入门文档中的案例在 GO 的是如何实现的。要说明的是， GO 其实也提供了对应于 requests 的克隆版本，github地址。暂时我也尚未看，有兴趣的朋友能够去研究一下。