TinySpider实战之-Visual Paradigm教学相关文档下载

时间 2019-11-08

标签 tinyspider 实战 visual paradigm 教学相关文档下载繁體版

原文原文链接

Visual Paradigm是一个很是棒的UML绘图工具，须要对它了解的，能够直接看官网，在此不作更多介绍，最近要使用它来作一些设计，它有很是完备的在线教学，写得很是不错。这个时候问题来了，这些教学很是多，并且若是全部人都访问外网的话及学习效率都比较低。经过观察，发现里面的全部文章都有PDF能够下载，并且里面的示例也能够下载，呵呵，这就好办了，作个程序把它抓下来不就解决了？因而把此问题交给HulkZ同窗去干了，HulkZ同窗花了半天时间交工，我看了下，发现虽然局部有优化的地方，可是整体仍是能够的，因而就写这篇文章作个说明。 html

注：HulkZ同窗尚未大学毕业，正在大学4年级学习。 java

第一步：教学首页的处理

public class VisualParadigmMain {
    public static void main(String[] args) throws Exception {
        Spider spider = new SpiderImpl("UTF-8");
        Watcher watcher = new WatcherImpl();
        watcher.addProcessor(new VisualParadigmMainProcessor());
        QuickNameFilter<HtmlNode> nodeFilter = new QuickNameFilter<HtmlNode>();
        nodeFilter.setNodeName("li");
        nodeFilter.setIncludeAttribute("class", "tutorialLeftMenuItem");
        watcher.setNodeFilter(nodeFilter);
        spider.addWatcher(watcher);
        spider.processUrl("http://www.visual-paradigm.com/tutorials/");
    }
}

大意是建立一个抓取UTF-8的爬虫，而后建立一个观察者，设定对带有class为tutorialLeftMenuItem的li标签用VisualParadigmMainProcessor类去处理，而后去处理URLhttp://www.visual-paradigm.com/tutorials/。 node

到这里处理仍是比较清晰的，接下来看看VisualParadigmMainProcessor是怎么样的。 app

public class VisualParadigmMainProcessor implements Processor {
    public void process(String url, HtmlNode node, Map<String, Object> parameters) throws Exception {
        HtmlNode a = node.getSubNode("a");
        File file = new File("E:\\临时\\spider\\" + a.getPureText().trim());
        if (!file.exists()) {
            file.mkdirs();
        }
        VisualParadigmList.process(a.getAttribute("href"));
    }
}

这里传入的node实际上，就是上面说的带有class为tutorialLeftMenuItem的li标签，这里的意思是找到它下面的全部<a>标签，而后建立目录，而后再用VisualParadigmList类来对这些分类链接进行处理。框架

第二步：教学分类中的教学内容列表处理

教学分类中主要就是一篇一篇的教学文章了，接下来固然是对这些文章进行处理了。 ide

public class VisualParadigmList {
    public static void process(String url) throws Exception {
        Spider spider = new SpiderImpl("UTF-8");
        Watcher watcher = new WatcherImpl();
        watcher.addProcessor(new VisualParadigmListProcessor());
        QuickNameFilter<HtmlNode> nodeFilter = new QuickNameFilter<HtmlNode>();
        nodeFilter.setNodeName("div");
        nodeFilter.setIncludeAttribute("class", "tutorial-link-container");
        watcher.setNodeFilter(nodeFilter);
        spider.addWatcher(watcher);
        spider.processUrl("http://www.visual-paradigm.com" + url);
        System.out.println(System.currentTimeMillis()+"-"+url);
    }
}

这里又建立一个爬虫，而后对须要处理的页面查找class为"tutorial-link-container"的div标签，找到以后用VisualParadigmListProcessor进行处理。

VisualParadigmListProcessor类的内容以下：工具

public class VisualParadigmListProcessor implements Processor {
    public void process(String url, HtmlNode node, Map<String, Object> parameters) throws Exception {
        HtmlNode a = node.getSubNode("a");
        VisualParadigmPage.process(a.getPureText(), a.getAttribute("href"));
    }
}

意思就是再对它下面的a标签中的URL用VisualParadigmPage类进行处理。学习

第三步：具体的页面处理

上面就是具体的教学页面了，在其右上角，就有PDF的连接，下面要作的工做就是把这些PDF抓取下来，首先看VisualParadigmPage类：优化

public class VisualParadigmPage {
    public static void process(String title,String url) throws Exception {
        Spider spider = new SpiderImpl("UTF-8");
        Watcher watcher = new WatcherImpl();
        watcher.addProcessor(new VisualParadigmPageProcessor(title));
        QuickNameFilter<HtmlNode> nodeFilter = new QuickNameFilter<HtmlNode>();
        nodeFilter.setNodeName("html");
        watcher.setNodeFilter(nodeFilter);
        spider.addWatcher(watcher);
        spider.processUrl("http://www.visual-paradigm.com" + url);
        System.out.println(System.currentTimeMillis()+"-"+url);
    }
}

其意思是建立一个爬虫，并对里面的html标签用VisualParadigmPageProcessor类进行处理，相对于上面的一些类这个类的内容就稍微复杂些了：

public class VisualParadigmPageProcessor implements Processor {
    static HttpClient httpClient = new HttpClient();
    private final String title;

    public VisualParadigmPageProcessor(String title) {
        this.title = title;
    }

    public void process(String url, HtmlNode node, Map<String, Object> parameters) throws Exception {
        NameFilter<HtmlNode> titleUrlFilter = new NameFilter(node);
        titleUrlFilter.setNodeName("title");
        HtmlNode titleNode = titleUrlFilter.findNode();

        NameFilter<HtmlNode> pdfUrlFilter = new NameFilter(node);
        pdfUrlFilter.setNodeName("a");
        pdfUrlFilter.setIncludeAttribute("class", "pdf notranslate");
        HtmlNode pdfNode = pdfUrlFilter.findNode();
        NameFilter<HtmlNode> ol = new NameFilter(node);
        pdfUrlFilter.setNodeName("ol");
        pdfUrlFilter.setIncludeAttribute("class", "contentPoint");
        HtmlNode olNode = pdfUrlFilter.findNode();
        if (pdfNode != null) {
            String pdfUrl = "http://www.visual-paradigm.com" + pdfNode.getAttribute("href");
            saveUrl(titleNode.getPureText() + ".pdf", pdfUrl);
        }
        if (olNode != null && olNode.getSubNodes("a") != null) {
            for (HtmlNode aNode : olNode.getSubNodes("a")) {
                String vppUrl = "http://www.visual-paradigm.com" + aNode.getAttribute("href");
                saveUrl(aNode.getPureText(), vppUrl);
            }
        }
    }

    private void saveUrl(String name, String urlAddress) throws IOException {
        String fileName = "E:\\临时\\spider\\" + title + "\\" + name;
        GetMethod getMethod = new GetMethod(urlAddress);
        int iGetResultCode = httpClient.executeMethod(getMethod);
        if (iGetResultCode == HttpStatus.SC_OK) {
            InputStream inputStream = getMethod.getResponseBodyAsStream();
            OutputStream outputStream = new FileOutputStream(fileName);
            byte[] buffer = new byte[4096];
            int n = -1;
            while ((n = inputStream.read(buffer)) != -1) {
                if (n > 0) {
                    outputStream.write(buffer, 0, n);
                }
            }
            inputStream.close();
            outputStream.close();
        }
        getMethod.releaseConnection();
    }
}

可是其逻辑仍是清晰的：

到文章中查找到标题，再查找到PDF的连接,再查找到其它附件的连接，若是有的话，就把它们存储下来，整个代码编写任务结束。 ui

运行结果

D:\BaiduYunDownload\VPTutorials 的目录

2014/11/02  20:06    <DIR>          .
2014/11/02  20:06    <DIR>          ..
2014/11/02  20:05    <DIR>          Business Modeling
2014/11/02  20:05    <DIR>          Business Process Modeling
2014/11/02  20:05    <DIR>          Business Rule
2014/11/02  20:05    <DIR>          Code Engineering
2014/11/02  20:05    <DIR>          Customization
2014/11/02  20:05    <DIR>          Data Modeling
2014/11/02  20:05    <DIR>          Database Tools
2014/11/02  20:05    <DIR>          Design Animation
2014/11/02  20:05    <DIR>          Diagramming
2014/11/02  20:05    <DIR>          Enterprise Architecture
2014/11/02  20:05    <DIR>          Glossary
2014/11/02  20:05    <DIR>          Grid
2014/11/02  20:05    <DIR>          IDE Integration
2014/11/02  20:05    <DIR>          Impact Analysis
2014/11/02  20:05    <DIR>          Interoperability
2014/11/02  20:05    <DIR>          Modeling Toolset
2014/11/02  20:05    <DIR>          Object Relational Mapping
2014/11/02  20:05    <DIR>          Plug-in Development
2014/11/02  20:05    <DIR>          Process Simulation
2014/11/02  20:05    <DIR>          Project Referencing
2014/11/02  20:06    <DIR>          Reporting
2014/11/02  20:06    <DIR>          Requirements Capturing
2014/11/02  20:06    <DIR>          SoaML Modeling
2014/11/02  20:06    <DIR>          Team Collaboration
2014/11/02  20:06    <DIR>          UML Modeling
2014/11/02  20:06    <DIR>          Use Case Modeling

上面是他提交给个人成果物，总共108M，任务完成得很是漂亮。

补充

这部分代码，HulkZ同窗已经Push给我，放在TinySpider工程当中。

另外作这个过程当中，还发现TinySpider不能处理gzip方式处理过的Html文档，所以还增长了对gzip方式的html内容进行处理的支持。

更多内容，请查看Tiny框架官网：http://www.tinygroup.org，也能够查看本人的博客，相信不会空手而归。

也能够添加本人QQ进行直接沟通，还能够加入Tiny群与TinyFans互动。