Java网络爬虫实操（8）

时间 2019-12-08

标签 java 网络爬虫栏目 Java 繁體版

原文原文链接

上一篇：Java网络爬虫实操（7）html

你们好，本篇文章介绍一下NetDiscovery爬虫框架里的downloader对象java

1) 前言

面向对象设计仍然是目前编程的核心思想，从下面截图能够了解爬虫框架的主要对象： git

程序在本地组织好一个request后，交给downloader从网络上抓取数据到本地，而后由parser处理本地的这些数据，最终生成可用的信息。github

2) downloader介绍

downloader咱们也称为下载器，主要功能就是访问网络并成功抓回咱们要的数据：例如html网页、json/xml数据、二进制流（图片、office文档等）目前NetDiscovery支持的downloader实现有： apache

面向接口编程是这个框架的重要设计思想之一。编程

如下介绍部分downloader代码，这些代码的共同点是实现了Downloader接口。json

做为程序开发者，你也能够实现接口com.cv4j.netdiscovery.core.downloader.Downloader，建立本身的下载器类。bash

UrlConnectionDownloader 这个用的是jdk自带的包，java.io、java.net

//一、构建一个URL对象
url = new URL(request.getUrl());
//二、获取一个HttpURLConnection对象
conn = url.openConnection();
//三、一堆设置
conn .setDoOutput(true);
conn .setDoInput(true);
conn .setRequestMethod("POST");
......
//四、访问网络服务
conn.connect();
//五、执行成功的话，获取结果
conn.getResponseCode();
conn.getInputStream();
复制代码

HttpClientDownloader 这个是用开源包apache httpclient实现的，代码就更加简洁优雅了。

//一、获取一个HttpManager对象(框架本身封装的)
HttpManager httpManager = HttpManager.get();
//二、而后把request扔进去，等结果就能够了.request也是框架封装的
httpManager.getResponse(request)
//三、等来结果后，进行处理
            @Override
            public Response apply(CloseableHttpResponse closeableHttpResponse) throws Exception {
                String charset = null;
                if (Preconditions.isNotBlank(request.getCharset())) {
                    charset = request.getCharset();  //针对一些仍是GB2312编码的网页
                } else {
                    charset = "UTF-8";
                }
                String html = EntityUtils.toString(closeableHttpResponse.getEntity(), charset);
                Response response = new Response();
                response.setContent(html.getBytes());
                response.setStatusCode(closeableHttpResponse.getStatusLine().getStatusCode());
                if (closeableHttpResponse.containsHeader("Content-Type")) {
                    response.setContentType(closeableHttpResponse.getFirstHeader("Content-Type").getValue());
                }

                return response;
            }
复制代码

VertxDownloader等类你们有须要均可以去了解一下。

3) 总结

总之，爬虫程序本质上是一个网络程序，网络程序的核心模块离不开对网络数据的处理。建议学习爬虫的伙伴们，要看源代码的话，能够先从框架中的downloader相关代码开始了解。相信必定会有收获的。网络

下一篇：Java网络爬虫实操（9）app