Spiderman Java开源垂直爬虫抓取示例【需求小复杂】

时间 2019-12-23

标签 spiderman java 开源垂直爬虫抓取示例需求小复杂栏目 Java 繁體版

原文原文链接

首先要说明的是，本文仅介绍了Spiderman解析 XML 的示例，Spiderman解析 HTML 也是差很少的原理，不过更考验“爬虫”的能力。 java

这个之后再发篇文章详细说明【已经有了请点击这里】:) 在Github的spiderman-sample项目里面有好几个案例，能够跑跑看。 json

这是Spiderman连接： http://www.oschina.net/p/spiderman

1.Spiderman是一个垂直领域的爬虫，可用于抓取特定目标网页的内容，而且解析为所须要的业务数据，整个过程追求无需任何编码就能实现，这样带来的好处是部署简单，而且网页内容变化能够灵活应对。

2.本文演示所抓取的目标URL是：http://www.alldealsasia.com/feeds/xml 这是一个XML文件，提供了该网站全部活动的Deal
3.怎么用Git+Maven搭建Spiderman使用这里就不详细说明了
4.直接看效果 ide

这是目标网页【一个xml页面】
为了完成以上的目标，须要配置一个xml文件让Spiderman根据目标执行

最后来看看抓取以后的结果数据，我是在回调方法里面写入文件的：

// 初始化蜘蛛
Spiderman.init(new SpiderListener() {
    public void onNewUrls(Thread thread, Task task, Collection<String> newUrls) {}
    public void onDupRemoval(Thread currentThread, Task task, Collection<Task> validTasks) {}
    public void onNewTasks(Thread thread, Task task, Collection<Task> newTasks) {}
    public void onTargetPage(Thread thread, Task task, Page page) {}
    public void onInfo(Thread thread, String info) {}
    public void onError(Thread thread, String err, Exception e) {
        e.printStackTrace();
    }
    public void onParse(Thread thread, Task task, List<Map<String, Object>> models, int count) {
        String content = CommonUtil.toJson(models);
        try {
            FileUtil.writeFile(new File("d:/jsons/spiderman-result-"+count+".json"), content);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    public void onPojo(Thread thread, List<Object> pojo, int count){}
});

// 启动蜘蛛
Spiderman.start();
		
//运行30s
Thread.sleep(CommonUtil.toSeconds("30s").longValue()*1000);
		
// 关闭蜘蛛
Spiderman.stop();

打开文件而且把文件内容进行json格式化：

待续... 网站