【HttpClient】HttpClient总结一之基本使用

时间 2019-11-08

标签 HttpClient httpclient 总结基本使用栏目系统网络繁體版

原文原文链接

最近工做中是作了一个handoop的hdfs系统的文件浏览器的功能，是利用webhdfs提供的rest api来访问hdfs来与hdfs进行交互的，其中大量使用HttpClient，以前一直很忙，没什么时间来总结，今天闲下来了，能够来好好总结一下这个东西了。javascript

1.HttpClient简介

http协议能够说是如今Internet上面最重要，使用最多的协议之一了，愈来愈多的java应用须要使用http协议来访问网络资源，特别是如今rest api的流行，HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，而且它支持 HTTP 协议最新的版本和建议。HttpClient 已经应用在不少的项目中，好比 Apache Jakarta 上很著名的另外两个开源项目 Cactus 和 HTMLUnit 都使用了 HttpClient，不少的java的爬虫也是经过HttpClient实现的，研究HttpClient对咱们来讲是很是重要的。html

2.HttpClient不是浏览器

不少人以为既然HttpClient是一个HTTP客户端编程工具，不少人把他当作浏览器来理解，可是其实HttpClient不是浏览器，它是一个HTTP通讯库，所以它只提供一个通用浏览器应用程序所指望的功能子集，最根本的区别是HttpClient中没有用户界面，浏览器须要一个渲染引擎来显示页面，并解释用户输入，例如鼠标点击显示页面上的某处，有一个布局引擎，计算如何显示HTML页面，包括级联样式表和图像。javascript解释器运行嵌入HTML页面或从HTML页面引用的javascript代码。来自用户界面的事件被传递到javascript解释器进行处理。除此以外，还有用于插件的接口，能够处理Applet，嵌入式媒体对象（如pdf文件，Quicktime电影和Flash动画）或ActiveX控件（能够执行任何操做）。HttpClient只能以编程的方式经过其API用于传输和接受HTTP消息。HttpClient也是彻底内容不可知的。java

另外一个主要区别是对错误输入或HTTP标准违规的容忍。须要容许无效的用户输入，以使浏览器用户友好。还须要对从服务器检索的畸形文档的容忍度，以及在执行协议时服务器行为的缺陷，使尽量多的用户可访问的网站。然而，HttpClient努力在默认状况下尽量接近并遵照HTTP标准规范和相关标准。它还提供了一些手段来放松规范所施加的一些限制，这些限制容许或要求与不兼容的HTTP源或代理服务器兼容。web

3.HttpClient入门使用

注意这个版本主要是基于HttpClient4.5.2版本的来说解的，也是如今最新的版本，之因此要提供版本说明的是由于HttpClient 3版本和HttpClient 4版本差异仍是不少大的，基本HttpClient里面的接口都变了，你把HttpClient 3版本的代码拿到HttpClient 4上面都运行不起来，会报错的。因此这儿必定要注意，好了废话很少说了，开始。apache

3.1.在pom.xml加入对httpclient的必需的jar包的依赖

//httpclient的接口基本都在这儿 
   <dependency>
      <groupId>org.apache.httpcomponents</groupId>
      <artifactId>httpclient</artifactId>
      <version>4.5.2</version>
    </dependency>
    //httpclient缓存
    <dependency>
      <groupId>org.apache.httpcomponents</groupId>
      <artifactId>httpclient-cache</artifactId>
      <version>4.5</version>
    </dependency>
    //http的mime类型都在这里面
    <dependency>
     <groupId>org.apache.httpcomponents</groupId>
     <artifactId>httpmime</artifactId>
     <version>4.3.2</version>
    </dependency>

注意：常见的MIME类型(通用型)：编程

超文本标记语言文本 .html text/htmlapi

xml文档 .xml text/xml浏览器

XHTML文档 .xhtml application/xhtml+xml缓存

普通文本 .txt text/plain服务器

RTF文本 .rtf application/rtf

PDF文档 .pdf application/pdf

Microsoft Word文件 .word application/msword

PNG图像 .png image/png

GIF图形 .gif image/gif

JPEG图形 .jpeg,.jpg image/jpeg

au声音文件 .au audio/basic

MIDI音乐文件 mid,.midi audio/midi,audio/x-midi

RealAudio音乐文件 .ra, .ram audio/x-pn-realaudio

MPEG文件 .mpg,.mpeg video/mpeg

AVI文件 .avi video/x-msvideo

GZIP文件 .gz application/x-gzip

TAR文件 .tar application/x-tar

任意的二进制数据 application/octet-stream

3.2.抓取网页的内容并打印到控制台的demo

先直接贴代码：

package fangdd.HttpClientDemo;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.Locale;

import org.apache.http.HttpEntity;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class HttpGetNewSample {

    public static void main(String[] args) {
        // TODO Auto-generated method stub
        String url="http://www.baidu.com";

      
        //1.使用默认的配置的httpclient
        CloseableHttpClient client = HttpClients.createDefault();
        //2.使用get方法
        HttpGet httpGet = new HttpGet(url);
        InputStream inputStream = null;
        CloseableHttpResponse response = null;

        try {
            //3.执行请求，获取响应
            response = client.execute(httpGet);
               

            //看请求是否成功，这儿打印的是http状态码
            System.out.println(response.getStatusLine().getStatusCode());
            //4.获取响应的实体内容，就是咱们所要抓取得网页内容
            HttpEntity entity = response.getEntity();

            //5.将其打印到控制台上面
            //方法一：使用EntityUtils
            if (entity != null) {
                System.out.println(EntityUtils.toString(entity, "utf-8"));
            }
            EntityUtils.consume(entity);
            
            //方法二  :使用inputStream
           /* if (entity != null) {
                inputStream = entity.getContent();

                BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream));
                String line = "";
                while ((line = bufferedReader.readLine()) != null) {
                    System.out.println(line);

                }
            }*/

        } catch (UnsupportedOperationException | IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } finally {
            if (inputStream != null) {
                try {
                    inputStream.close();
                } catch (IOException e) {
                    // TODO Auto-generated catch block
                    e.printStackTrace();
                }
            }
            if (response != null) {
                try {
                    response.close();
                } catch (IOException e) {
                    // TODO Auto-generated catch block
                    e.printStackTrace();
                }
            }
       

            try {
                client.close();//关闭http链接
            } catch (IOException e) {
                logger.error("文件上传。关闭httpClient失败", e);
            }


        }

    }

}

3.3HttpClient编写程序流程总结

其实从上面咱们就能够总结出使用HttpClient其实分为6个步骤

1.建立HttpClient对象

这儿使用的是org.apache.http.impl.client.CloseableHttpClient，他是HttpClient接口的一个实例，建立该对象的最简单方法是CloseableHttpClient client = HttpClients.createDefault();

HttpClients是建立CloseableHttpClient的工厂，采用默认的配置来建立实例，通常状况下咱们就用这个默认的实例就足够，后面咱们能够去看下怎么定制本身需求配置的来建立HttpClient接口的实例。若是你去看这个函数的源代码，你能够看到org.apache.http.client.CookieStore，org.apache.http.client.config.RequestConfig等等都是采用默认的。后面咱们会专门有篇博客探讨怎么根据本身的需求定制httpclient。

2.建立某种请求方法的实例。

建立某种请求的实例，并指定请求的url，若是是get请求，建立对象HttpGet，若是是post 请求，建立对象HttpPost。类型的还有 HttpHead, HttpPost, HttpPut, HttpDelete, HttpTrace, 还有 HttpOptions。分别对应HEAD、POST PUT、DELETE、TRACE、OPTIONS方法，每一个方法是作什么的以下表：

方法	描述	是否包含主体
GET	从服务器获取一份文档	否
HEAD	只从服务器获取文档的首部	否
POST	向服务器发送须要处理的数据	是
PUT	将请求的主体部分存储在服务器上	是
TRACE	对可能通过代理服务器传送到服务器上去的报文进行追踪	否
OPTIONS	决定能够在服务器上执行哪些方法	否
DELETE	从服务器上删除一份文档	否

能够看获得在Http协议中，只有post方法和put方法的请求里面有实体

3.若是有请求参数的话，Get方法直接写在url后面，例如

HttpGet httpget = new HttpGet（
      “http://www.google.com/search?hl=zh-CN&q=httpclient&btnG=Google+Search&aq=f&oq=”）;

或者使用setParameter来设置参数

URI uri = new URIBuilder（）
         .setScheme（“http”）
         .setHost（“www.google.com”）
         .setPath（“/ search”）
         .setParameter（“q”，“httpclient”）
         .setParameter（“btnG”，“Google搜索”）
         .setParameter（“aq”，“f”）
         .setParameter（“oq”，“”）
         。创建（）;
 HttpGet httpget = new HttpGet（uri）;
 System.out.println（httpget.getURI（））;

stdout>

http://www.google.com/search?q=httpclient&btnG=Google+Search&aq=f&oq=

post方法用setEntity(HttpEntity entity)方法来设置请求参数。

后面会详细的探讨Entity这个东西，专门会有一篇博客的，这儿就不在赘叙。

4.发送请求。

调用CloseableHttpClient对象的execute(HttpUriRequest request)发送请求，该方法返回一个CloseableHttpResponse对象。

CloseableHttpResponse response = client.execute(post);，很明显CloseableHttpResponse就是用了处理返回数据的实体，经过它咱们能够拿到返回的状态码、首部、实体等等咱们须要的东西。

5.获取请求结果。

调用CloseableHttpResponse的getAllHeaders()、getHeaders(String name)等方法可获取服务器的响应头；调用CloseableHttpResponse的getEntity()方法可获取HttpEntity对象，该对象包装了服务器的响应内容。程序可经过该对象获取服务器的响应内容。

HttpEntity entity = response.getEntity();
            //5.将其打印到显示器上面
             //方法一：使用EntityUtils
              /*
            if(entity!=null)
            {
                System.out.println(EntityUtils.toString(entity,"utf-8"));
            }
            
            EntityUtils.consume(entity)
            */
            //方法二  
            InputStream inputStream = entity.getContent();

            BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream));
            String line = "";
            while ((line = bufferedReader.readLine()) != null) {
                System.out.println(line);

            }

经过CloseableHttpEntity的getEntity取得实体以后，有两种处理结果的方法，

方法一：使用EntityUtils来处理。

该类是官方提供的一个处理实体的工具类，toSting方法将返回的实体转换为字符串，可是官网不建议使用这个，除非响应实体从一个可信HTTP服务器发起和已知是有限长度的。

方法二：使用InputStream来读取

由于httpEntity.getContent方法返回的就是InputStream类型。这种方法是官网推荐的方式，须要记得的是要本身释放底层资源。

6.关闭链接，释放资源。

若是是使用EntityUtils来处理实体的使用 EntityUtils.consume(entity)来释放资源，能够看获得该函数源码为：

public static void consume(final HttpEntity entity) throws IOException {
        if (entity == null) {
            return;
        }
        if (entity.isStreaming()) {
            final InputStream instream = entity.getContent();
            if (instream != null) {
                instream.close();
            }
        }
}

其实仍是经过关闭inputStream，而后最后咱们再关闭CloseableHttpResponse就能够了

若是是使用InputStream来处理实体的，释放代码以下

CloseableHttpClient httpclient = HttpClients.createDefault（）;
 HttpGet httpget = new HttpGet（“http：// localhost /”）;
 CloseableHttpResponse response = httpclient.execute（httpget）;
try{
     HttpEntity entity = response.getEntity（）;
     if（entity！= null）{
         InputStream instream = entity.getContent（）;
        try{
             //作一些有用的事情
         } finally {
             intream.close（）;
         }}
     }}
 } finally {
     response.close（）;
 }}

关闭内容流和关闭响应之间的区别是：前者将尝试经过消耗实体内容来保持底层链接活动，然后者当即关闭并丢弃链接

至此，一个基本的HttpClient的使用的例子已经成功完成，文章还有不少不足，但愿获得你们的批评和指正。