前几天在 "知乎想法" 谈到了一个话题,如何模仿学习,举了经过 net/http client 模仿 Pyhton 的requests的例子。但并未实践,难道想法真的只能是想法吗?固然不是,因而我决定先暂停一周 GO 笔记,来实践下本身的想法。html
本文将经过 GO 实现 requests 的 quick start 文档中的全部例子,系统学习http client的使用。虽然标题是 quick start,但其实内容挺多的。github
首先,咱们来发起一个 GET 请求,代码很是简单。以下:golang
func get() {
r, err := http.Get("https://api.github.com/events")
if err != nil {
panic(err)
}
defer func() { _ = r.Body.Close() }()
body, _ := ioutil.ReadAll(r.Body)
fmt.Printf("%s", body)
}
复制代码
经过 http.Get 方法,获取到了一个 Response 和一个 error ,即 r 和 err。经过 r 咱们能获取响应的信息,err 能够实现错误检查。json
r.Body 被读取后须要关闭,能够defer来作这件事。内容的读取可经过 ioutil.ReadAll实现。api
除了GET,HTTP还有其余一系列方法,包括POST、PUT、DELETE、HEAD、OPTIONS。快速体验中的GET是经过一种便捷的方式实现的,它隐藏了不少细节。这里暂时先不用它。数组
咱们先来介绍通用的方法,以帮咱们实现全部HTTP方法的请求。主要涉及两个重要的类型,Client 和 Request。bash
Client 便是发送 HTTP 请求的客户端,请求的执行都是由 Client 发起。它提供了一些便利的请求方法,好比咱们要发起一个Get请求,可经过 client.Get(url) 实现。更通用的方式是经过 client.Do(req) 实现,req 属于 Request 类型。微信
Request 是用来描述请求信息的结构体,好比请求方法、地址、头部等信息,咱们均可以经过它来设置。Request 的建立能够经过 http.NewRequest 实现。cookie
接下来列举 HTTP 全部方法的实现代码。
GET
r, err := http.DefaultClient.Do(
http.NewRequest(http.MethodGet, "https://api.github.com/events", nil))
复制代码
POST
r, err := http.DefaultClient.Do(
http.NewRequest(http.MethodPost, "http://httpbin.org/post", nil))
复制代码
PUT
r, err := http.DefaultClient.Do(
http.NewRequest(http.MethodPut, "http://httpbin.org/put", nil))
复制代码
DELETE
r, err := http.DefaultClient.Do(
http.NewRequest(http.MethodDelete, "http://httpbin.org/delete", nil))
复制代码
HEAD
r, err := http.DefaultClient.Do(
http.NewRequest(http.MethodHead, "http://httpbin.org/get", nil))
复制代码
OPTIONS
r, err := http.DefaultClient.Do(
http.NewRequest(http.MethodOptions, "http://httpbin.org/get", nil))
复制代码
上面展现了HTTP全部方法的实现。这里还几点须要说明。
DefaultClient,它是 net/http 包提供了默认客户端,通常的请求咱们无需建立新的 Client,使用默认便可。
GET、POST 和 HEAD 的请求,GO提供了更便捷的实现方式,Request 不用手动建立。
示例代码,每一个 HTTP 请求方法都有两种实现。
GET
r, err := http.DefaultClient.Get("http://httpbin.org/get")
r, err := http.Get("http://httpbin.org/get")
复制代码
POST
bodyJson, _ := json.Marshal(map[string]interface{}{
"key": "value",
})
r, err := http.DefaultClient.Post(
"http://httpbin.org/post",
"application/json",
strings.NewReader(string(bodyJson)),
)
r, err := http.Post(
"http://httpbin.org/post",
"application/json",
strings.NewReader(string(bodyJson)),
)
复制代码
这里顺便演示了如何向 POST 接口提交 JSON 数据的方式,主要 content-type 的设置,通常JSON接口的 content-type 为 application/json。
HEAD
r, err := http.DefaultClient.Head("http://httpbin.org/get")
r, err := http.Head("http://httpbin.org/get")
复制代码
若是看了源码,你会发现,http.Get 中调用就是 http.DefaultClient.Get,是同一个意思,只是为了方便,提供这种调用方法。Head 和 Post 也是如此。
经过将键/值对置于 URL 中,咱们能够实现向特定地址传递数据。该键/值将跟在一个问号的后面,例如 httpbin.org/get?key=val… 手工构建 URL 会比较麻烦,咱们能够经过 net/http 提供的方法来实现。
举个栗子,好比你想传递 key1=value1 和 key2=value2 到 httpbin.org/get。代码以下:
req, err := http.NewRequest(http.MethodGet, "http://httpbin.org/get", nil)
if err != nil {
panic(err)
}
params := make(url.Values)
params.Add("key1", "value1")
params.Add("key2", "value2")
req.URL.RawQuery = params.Encode()
// URL 的具体状况 http://httpbin.org/get?key1=value1&key2=value2
// fmt.Println(req.URL.String())
r, err := http.DefaultClient.Do(req)
复制代码
url.Values 能够帮助组织 QueryString,查看源码发现 url.Values 实际上是 map[string][]string。调用 Encode 方法,将组织的字符串传递给请求 req 的 RawQuery。经过 url.Values也能够设置一个数组参数,相似以下的形式:
怎么作呢?
params := make(url.Values)
params.Add("key1", "value1")
params.Add("key2", "value2")
params.Add("key2", "value3")
复制代码
观察最后一行代码。其实,只要在 key2 上再增长一个值就能够了。
执行请求成功,如何查看响应信息。要查看响应信息,能够大概了解下,响应一般哪些内容?常见的有主体内容(Body)、状态信息(Status)、响应头部(Header)、内容编码(Encoding)等。
其实,在最开始的时候已经演示Body读取的过程。响应内容的读取可经过 ioutil 实现。
body, err := ioutil.ReadAll(r.Body)
复制代码
响应内容多样,若是是 json,能够直接使用 json.Unmarshal 进行解码,JSON知识不介绍了。
r.Body 实现了 io.ReadeCloser 接口,为减小资源浪费要及时释放,能够经过 defer 实现。
defer func() { _ = r.Body.Close() }()
复制代码
响应信息中,除了 Body 主体内容,还有其余信息,好比 status code 和 charset 等。
r.StatusCode
r.Status
复制代码
r.StatusCode 是 HTTP 返回码,Status 是返回状态描述。
响应头信息经过 Response.Header 便可获取,要说明的一点是,响应头的 Key 是不区分大小写。
r.Header.Get("content-type")
r.Header.Get("Content-Type")
复制代码
你会发现 content-type 和 Content-Type 获取的内容是彻底同样的。
如何识别响应内容编码呢?咱们须要借助 golang.org/x/net/html/… 包实现。先来定义一个函数,代码以下:
func determineEncoding(r *bufio.Reader) encoding.Encoding {
bytes, err := r.Peek(1024)
if err != nil {
fmt.Printf("err %v", err)
return unicode.UTF8
}
e, _, _ := charset.DetermineEncoding(bytes, "")
return e
}
复制代码
怎么调用它?
bodyReader := bufio.NewReader(r.Body)
e := determineEncoding(bodyReader)
fmt.Printf("Encoding %v\n", e)
decodeReader := transform.NewReader(bodyReader, e.NewDecoder())
复制代码
利用 bufio 生成新的 reader,而后利用 determineEncoding 检测内容编码,并经过 transform 进行编码转化。
若是访问内容是一张图片,咱们如何把它下载下来呢?好比以下地址的图片。
其实很简单,只须要建立新的文件并把响应内容保存进去便可。
f, err := os.Create("as.jpg")
if err != nil {
panic(err)
}
defer func() { _ = f.Close() }()
_, err = io.Copy(f, r.Body)
if err != nil {
panic(err)
}
复制代码
r 即 Response,利用 os 建立了新的文件,而后再经过 io.Copy 将响应的内容保存进文件中。
如何为请求定制请求头呢?Request 其实已经提供了相应的方法,经过 req.Header.Add 便可完成。
举个例子,假设咱们将要访问 httpbin.org/get,但这个地址针对 user-agent 设置了发爬策略。咱们须要修改默认的 user-agent。
示例代码:
req, err := http.NewRequest(http.MethodGet, "http://httpbin.org/get", nil)
if err != nil {
panic(err)
}
req.Header.Add("user-agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0)")
复制代码
如上即可完成任务。
前面已经展现过了向 POST 接口提交 JSON 数据的方式。接下来介绍下另外几种向 POST 接口提交数据的方式,即表单提交和文件提交。
表单提交是一个很经常使用的功能,故而在 net/http 中,除了提供标准的用法外,还给咱们提供了简化的方法。
咱们先来介绍个标准的实现方法。
举个例子,假设要向 httpbin.org/post 提交 name 为 poloxue 和 password 为 123456 的表单。
payload := make(url.Values)
payload.Add("name", "poloxue")
payload.Add("password", "123456")
req, err := http.NewRequest(
http.MethodPost,
"http://httpbin.org/post",
strings.NewReader(payload.Encode()),
)
if err != nil {
panic(err)
}
req.Header.Add("Content-Type", "application/x-www-form-urlencoded")
r, err := http.DefaultClient.Do(req)
复制代码
POST 的 payload 是形如 name=poloxue&password=123456 的字符串,故而咱们能够经过 url.Values 进行组织。
提交给 NewRequest 的内容必须是实现 Reader 接口的类型,因此须要 strings.NewReader转化下。
Form 表单提交的 content-type 要是 application/x-www-form-urlencoded,也要设置下。
复杂的方式介绍完了。接着再介绍简化的方式,其实表单提交只需调用 http.PostForm 便可完成。示例代码以下:
payload := make(url.Values)
payload.Add("name", "poloxue")
payload.Add("password", "123456")
r, err := http.PostForm("http://httpbin.org/post", form)
复制代码
竟是如此的简单。
文件提交应该是 HTTP 请求中较为复杂的内容了。其实说难也不难,区别于其余的请求,咱们要花些精力来读取文件,组织提交POST的数据。
举个例子,假设如今我有一个图片文件,名为 as.jpg,路径在 /Users/polo 目录下。如今要将这个图片提交给 httpbin.org/post。
咱们要先组织 POST 提交的内容,代码以下:
filename := "/Users/polo/as.jpg"
f, err := os.Open(filename)
if err != nil {
panic(err)
}
defer func() { _ = f.Close() }()
uploadBody := &bytes.Buffer{}
writer := multipart.NewWriter(uploadBody)
fWriter, err := writer.CreateFormFile("uploadFile", filename)
if err != nil {
fmt.Printf("copy file writer %v", err)
}
_, err = io.Copy(fWriter, f)
if err != nil {
panic(err)
}
fieldMap := map[string]string{
"filename": filename,
}
for k, v := range fieldMap {
_ = writer.WriteField(k, v)
}
err = writer.Close()
if err != nil {
panic(err)
}
复制代码
我认为,数据组织分为几步完成,以下:
第一步,打开将要上传的文件,使用 defer f.Close() 作好资源释放的准备; 第二步,建立存储上传内容的 bytes.Buffer,变量名为 uploadBody; 第三步,经过 multipart.NewWriter 建立 writer,用于向 buffer中写入文件提供的内容; 第四步,经过writer.CreateFormFile 建立上传文件并经过 io.Copy 向其中写入内容; 最后,经过 writer.WriteField 添加其余的附加信息,注意最后要把 writer 关闭; 至此,文件上传的数据就组织完成了。接下来,只需调用 http.Post 方法便可完成文件上传。
r, err := http.Post("http://httpbin.org/post", writer.FormDataContentType(), uploadBody)
复制代码
有一点要注意,请求的content-type须要设置,而经过 writer.FormDataContentType() 即能得到上传文件的类型。
到此,文件提交也完成了,不知道有没有很是简单的感受。
主要涉及两部份内容,即读取响应的 cookie 与设置请求的 cookie。响应的 cookie 获取方式很是简单,直接调用 r.Cookies 便可。
重点来讲说,如何设置请求 cookie。cookie设置有两种方式,一种设置在 Client 上,另外一种是设置在 Request 上。
直接看示例代码:
cookies := make([]*http.Cookie, 0)
cookies = append(cookies, &http.Cookie{
Name: "name",
Value: "poloxue",
Domain: "httpbin.org",
Path: "/cookies",
})
cookies = append(cookies, &http.Cookie{
Name: "id",
Value: "10000",
Domain: "httpbin.org",
Path: "/elsewhere",
})
url, err := url.Parse("http://httpbin.org/cookies")
if err != nil {
panic(err)
}
jar, err := cookiejar.New(nil)
if err != nil {
panic(err)
}
jar.SetCookies(url, cookies)
client := http.Client{Jar: jar}
r, err := client.Get("http://httpbin.org/cookies")
复制代码
代码中,咱们首先建立了 http.Cookie 切片,而后向其中添加了 2 个 Cookie 数据。这里经过 cookiejar,保存了 2 个新建的 cookie。
此次咱们不能再使用默认的 DefaultClient 了,而是要建立新的 Client,并将保存 cookie 信息的 cookiejar 与 client 绑定。接下里,只须要使用新建立的 Client 发起请求便可。
请求上的 cookie 设置,经过 req.AddCookie便可实现。示例代码:
req, err := http.NewRequest(http.MethodGet, "http://httpbin.org/cookies", nil)
if err != nil {
panic(err)
}
req.AddCookie(&http.Cookie{
Name: "name",
Value: "poloxue",
Domain: "httpbin.org",
Path: "/cookies",
})
r, err := http.DefaultClient.Do(req)
复制代码
挺简单的,没什么要介绍的。
cookie 设置 Client 和 设置在 Request 上有何区别?一个最易想到的区别就是,Request 的 cookie 只是当次请求失效,而 Client 上的 cookie 是随时有效的,只要你用的是这个新建立的 Client。
默认状况下,全部类型请求都会自动处理重定向。
Python 的 requests 包中 HEAD 请求是不重定向的,但测试结果显示 net/http 的 HEAD 是自动重定向的。
net/http 中的重定向控制能够经过 Client 中的一个名为 CheckRedirect 的成员控制,它是函数类型。定义以下:
type Client struct {
...
CheckRedirect func(req *Request, via []*Request) error
...
}
复制代码
接下来,咱们来看看怎么使用。
假设咱们要实现的功能:为防止发生循环重定向,重定向次数定义不能超过 10 次,并且要记录历史 Response。
示例代码:
var r *http.Response
history := make([]*http.Response, 0)
client := http.Client{
CheckRedirect: func(req *http.Request, hrs []*http.Request) error {
if len(hrs) >= 10 {
return errors.New("redirect to many times")
}
history = append(history, req.Response)
return nil
},
}
r, err := client.Get("http://github.com")
复制代码
首先建立了 http.Response 切片的变量,名称为 history。接着在 http.Client 中为 CheckRedirect 赋予一个匿名函数,用于控制重定向的行为。CheckRedirect 函数的第一个参数表示下次将要请求的 Request,第二个参数表示已经请求过的 Request。
当发生重定向时,当前的 Request 会保存上次请求的 Response,故而此处能够将 req.Response 追加到 history 变量中。
Request 发出后,若是服务端迟迟没有响应,那岂不是很尴尬。那么咱们就会想,可否为请求设置超时规则呢?毫无疑问,固然能够。
超时能够分为链接超时和响应读取超时,这些均可以设置。但正常状况下,并不想有那么明确的区别,那么也能够设置个总超时。
总的超时时间的设置是绑定在 Client 的一个名为 Timeout 的成员之上,Timeout 是 time.Duration。
假设这是超时时间为 10 秒,示例代码:
client := http.Client{
Timeout: time.Duration(10 * time.Second),
}
复制代码
链接超时可经过 Client 中的 Transport 实现。Transport 中有个名为 Dial 的成员函数,可用设置链接超时。Transport 是 HTTP 底层的数据运输者。
假设设置链接超时时间为 2 秒,示例代码:
t := &http.Transport{
Dial: func(network, addr string) (net.Conn, error) {
timeout := time.Duration(2 * time.Second)
return net.DialTimeout(network, addr, timeout)
},
}
复制代码
在 Dial 的函数中,咱们经过 net.DialTimeout 进行网络链接,实现了链接超时功能。
读取超时也要经过 Client 的 Transport 设置,好比设置响应的读取为 8 秒。
示例代码:
t := &http.Transport{
ResponseHeaderTimeout: time.Second * 8,
}
综合全部,Client 的建立代码以下:
t := &http.Transport{
Dial: func(network, addr string) (net.Conn, error) {
timeout := time.Duration(2 * time.Second)
return net.DialTimeout(network, addr, timeout)
},
ResponseHeaderTimeout: time.Second * 8,
}
client := http.Client{
Transport: t,
Timeout: time.Duration(10 * time.Second),
}
复制代码
除了上面的几个超时设置,Transport 还有其余一些关于超时的设置,能够看下 Transport 的定义,还有发现三个与超时相关的定义:
// IdleConnTimeout is the maximum amount of time an idle
// (keep-alive) connection will remain idle before closing
// itself.
// Zero means no limit.
IdleConnTimeout time.Duration
// ResponseHeaderTimeout, if non-zero, specifies the amount of
// time to wait for a server's response headers after fully // writing the request (including its body, if any). This // time does not include the time to read the response body. ResponseHeaderTimeout time.Duration // ExpectContinueTimeout, if non-zero, specifies the amount of // time to wait for a server's first response headers after fully
// writing the request headers if the request has an
// "Expect: 100-continue" header. Zero means no timeout and
// causes the body to be sent immediately, without
// waiting for the server to approve.
// This time does not include the time to send the request header.
ExpectContinueTimeout time.Duration
复制代码
分别是 IdleConnTimeout (链接空闲超时时间,keep-live 开启)、TLSHandshakeTimeout (TLS 握手时间)和 ExpectContinueTimeout(彷佛已含在 ResponseHeaderTimeout 中了,看注释)。
到此,完成了超时的设置。相对于 Python requests 确实是复杂不少。
代理仍是挺重要的,特别对于开发爬虫的同窗。那 net/http 怎么设置代理?这个工做仍是要依赖 Client 的成员 Transport 实现,这个 Transport 仍是挺重要的。
Transport 有个名为 Proxy 的成员,具体看看怎么使用吧。假设咱们要经过设置代理来请求谷歌的主页,代理地址为 http://127.0.0.1:8087。
示例代码:
proxyUrl, err := url.Parse("http://127.0.0.1:8087")
if err != nil {
panic(err)
}
t := &http.Transport{
Proxy: http.ProxyURL(proxyUrl),
TLSClientConfig: &tls.Config{InsecureSkipVerify: true},
}
client := http.Client{
Transport: t,
Timeout: time.Duration(10 * time.Second),
}
r, err := client.Get("https://google.com")
复制代码
主要关注 http.Transport 建立的代码。两个参数,分时 Proxy 和 TLSClientConfig,分别用于设置代理和禁用 https 验证。我发现其实不设置 TLSClientConfig 也能够请求成功,具体缘由没仔细研究。
错误处理其实都不用怎么介绍,GO中的通常错误主要是检查返回的error,HTTP 请求也是如此,它会视状况返回相应错误信息,好比超时、网络链接失败等。
示例代码中的错误都是经过 panic 抛出去的,真实的项目确定不是这样的,咱们须要记录相关日志,时刻作好错误恢复工做。
本文以 Python 的 requests 文档为指导方向,整理了 requests 快速入门文档中的案例在 GO 的是如何实现的。要说明的是, GO 其实也提供了对应于 requests 的克隆版本,github地址。暂时我也尚未看,有兴趣的朋友能够去研究一下。