XML数据如何进行解析呢，方式有哪些？

时间 2021-02-13

标签 java app 框架 dom 编码 .net code orm xml 栏目 XML 繁體版

原文原文链接

问题：XML数据如何进行解析呢，方式有哪些？

上回咱们说到 JSON 解析的四种方式，那么此次咱们来看看 XML 的四种解析方式。java

解析的四种方式

DOM 解析
SAX 解析
JDOM 解析
DOM4J 解析

案例实操

DOM 解析

DOM（Document Object Model，文档对象模型），在应用程序中，基于 DOM 的 XML 分析器将一个 XML 文档转换成一个对象模型的集合（一般称为 DOM 树），应用程序正是经过对这个对象模型的操做，来实现对 XML 文档数据的操做。XML 自己是以树状的形式出现的，因此 DOM 操做的时候，也将按章树的形式进行转换。在整个 DOM 树中，最大的地方指的是 Document，表示一个文档，在这个文档中只存在一个根节点。app

注意：在使用 DOM 操做的时候，每个文字的区域也是一个节点，称为文本节点。框架

核心操做接口dom

在 DOM 解析中有如下四个核心的操做接口：ui

Document：此接口表明了整个 XML 文档，表示的是整棵 DOM 树的根，提供了对文档中的数据进行访问和操做的入口，经过 Document 节点能够访问 XML 文件中全部的元素内容。编码

Node：此接口在整个 DOM 树中具备举足轻重的地位，DOM 操做的核心接口中有很大一部分接口是从 Node 接口继承过来的。例如：Document、Element 等接口，在 DOM 树中，每个 Node 接口表明了 DOM 树中的一个节点。.net

NodeList：此接口表示的是一个节点的集合，通常用于表示有顺序关系的一组节点，例如：一个节点的子节点，当文档改变的时候会直接影响到 NodeList 集合。code

NamedNodeMap：此接口表示的是一组节点和其惟一名字对应的一一对应关系，本接口主要用于属性节点的表示上。orm

DOM 解析过程xml

若是一个程序须要进行 DOM 解析读取操做的话，也须要按照以下的步骤进行：

① 创建 DocumentBuilderFactory : DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
② 创建 DocumentBuilder: DocumentBuilder builder = factory.newDocumentBuilder();
③ 创建 Document : Document doc = builder.parse(“要解析的文件路径”);
④ 创建 NodeList : NodeList nl = doc.getElementsByTagName(“读取节点”);
⑤ 进行 XML 信息读取

SAX 解析

SAX（Simple API for XML）解析是按照 xml 文件的顺序一步一步的来解析。SAX 没有官方的标准机构，它不属于任何标准组织或团体，也不属于任何公司或我的，而是提供任何人使用的一种计算机技术。

SAX（Simple API for XML，操做 XML 的简单接口），与 DOM 操做不一样的是，SAX 采用的是一种顺序的模式进行访问，是一种快速读取 XML 数据的方式。当使用 SAX 解析器进行操做的时候会触发一系列的事情，当扫描到文档（document）开始与结束、元素（element）开始与结束时都会调用相关的处理方法，并由这些操做方法做出相应的操做，直至整个文档扫描结束。

若是要想实现这种 SAX 解析，则确定首先创建一个 SAX 的解析器。

// 一、建立解析器工厂
SAXParserFactory factory = SAXParserFactory.newInstance();
// 二、得到解析器
SAXParser parser = factory.newSAXParser();
// SAX 解析器 ，继承 DefaultHandler
String path = new File("resource/demo01.xml").getAbsolutePath();
// 解析 
parser.parse(path, new MySaxHandler());

JDOM 解析

在 W3C 自己提供的 XML 操做标准，DOM 和 SAX，可是从开发角度上看，DOM 和 SAX 自己是各有特色的，DOM 能够修改，但不适合读取大文件，而 SAX 能够读取大文件，可是自己不能修改。所谓的 JDOM = DOM 的可修改 + SAX 的读取大文件，JDOM 自己是一个免费的开源组件，直接从 www.jdom.org 上下载。

JDOM 操做 xml 经常使用类：

Document：表示整个xml文档，是一个树形结构

Eelment：表示一个xml的元素，提供方法操做其子元素，如文本，属性和名称空间等

Attribute：表示元素包含的属性

Text：表示xml文本信息

XMLOutputter：xml输出流，底层是经过JDK中流实现

Format：提供xml文件输出的编码、样式和排版等设置

咱们发现 JDOM 的输出操做要比传统的 DOM 方便得多，并且也更加直观，包括在输出的时候都很容易了。此时观察到的是 JDOM 对于 DOM 解析的支持，可是也说，JDOM 自己也支持了 SAX 的特色；因此，可使用 SAX 进行解析操做。

// 获取 SAX 解析器
SAXBuilder builder = new SAXBuilder();
File file = new File("resource/demo01.xml");
// 获取文档
Document doc = builder.build(new File(file.getAbsolutePath()));  
// 获取根节点 
Element root = doc.getRootElement();  
System.out.println(root.getName());
// 获取根节点下全部的子节点， 也能够根据标签名称获取指定的直接点
List<Element> list = root.getChildren();
System.out.println(list.size());
for(int x = 0; x<list.size(); x++){
    Element e = list.get(x);  
    // 获取元素的名称和里面的文本
    String name = e.getName();
    System.out.println(name + "=" + e.getText());
    System.out.println("==================");
}

DOM4J 解析

dom4j 是一个简单的开源库，用于处理 XML、 XPath 和 XSLT，它基于 Java 平台，使用 Java 的集合框架，全面集成了 DOM，SAX 和 JAXP。下载路径：

http://www.dom4j.org/dom4j-1....

http://sourceforge.net/projec...

DOM4J 与 JDOM 同样都属于一个免费的 XML 开源组件，可是因为如今的开发框架中使用该技术较多，好比 Hibernate、Spring 等都使用 DOM4J 这个功能，因此做为介绍，你们能够对该组件有一个了解。并无谁好谁坏，通常框架使用 DOM4J 较多，而咱们平时若是要用则 JDOM 较常见。能够发现 DOM4J 发挥了不少新特性，好比输出格式就能够很好。

File file = new File("resource/outputdom4j.xml");
SAXReader reader = new SAXReader();
// 读取文件做为文档
Document doc = reader.read(file);
// 获取文档的根元素
Element root = doc.getRootElement();
// 根据跟元素找到所有的子节点
Iterator<Element> iter = root.elementIterator();
while(iter.hasNext()){
    Element name = iter.next();
    System.out.println("value = " + name.getText());
}

扩展~XML的建立

DOM 建立

若是想要生成 XML 文件，则在建立文档的时候，就应该使用 newDocument() 方法

若是要将 DOM 的文档输出，自己是比较麻烦的。一次编写屡次 copy

public static void createXml() throws Exception{  
    //获取解析器工厂 
    DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();  
    //获取解析器 
    DocumentBuilder builder=factory.newDocumentBuilder();  
    //建立文档 
    Document doc=builder.newDocument();  
    //建立元素、设置关系 
    Element root=doc.createElement("people");  
    Element person=doc.createElement("person");  
    Element name=doc.createElement("name");  
    Element age=doc.createElement("age");  
    name.appendChild(doc.createTextNode("lebyte"));  
    age.appendChild(doc.createTextNode("10"));  
    doc.appendChild(root);  
    root.appendChild(person);  
    person.appendChild(name);  
    person.appendChild(age);  
    //写出去 
    // 得到变压器工厂 
    TransformerFactory tsf=TransformerFactory.newInstance();  
    Transformer ts=tsf.newTransformer();  
    //设置编码 
    ts.setOutputProperty(OutputKeys.ENCODING, "UTF-8");  
    //建立带有 DOM 节点的新输入源，充当转换 Source 树的持有者 
    DOMSource source=new DOMSource(doc);  
    //充当转换结果的持有者 
    File file=new File("src/output.xml");  
    StreamResult result=new StreamResult(file);  
    ts.transform(source, result);  
}

SAX 建立

//建立一个SAXtransformerfactory对象
SAXTransformerFactory stf = (SAXTransformerFactory) SAXTransformerFactory.newInstance();
try {
    //经过SAXTransformerFactory对象建立一个TransfomerHandler对象
    TransformerHandler handler = stf.newTransformerHandler();
    //经过transformerHandler对象建立一个transformer对象
    Transformer tf = handler.getTransformer();
    //设置Transfomer对象的属性
    tf.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
    tf.setOutputProperty(OutputKeys.INDENT, "yes");
    //建立一个Result的对象，将其与handler关联
    File file = new File("src/output.xml");
    if(!file.exists()){
        file.createNewFile();
    }
    Result result = new StreamResult(new FileOutputStream(file));
    handler.setResult(result);
    //经过Handler编写XML的内容 
    //打开Document 
    handler.startDocument();
    AttributesImpl attr = new AttributesImpl();
    //建立根节点bookstore
    handler.startElement("", "", "bookstore", attr);
    attr.clear();
    attr.addAttribute("", "", "id", "", "1");
    handler.startElement("", "", "book", attr);
    attr.clear();
    handler.startElement("", "", "name", attr);
    handler.characters("颈椎病康复指南".toCharArray(), 0, "颈椎病康复指南".length());
    handler.endElement("","","name");
    //关闭各节点
    handler.endElement("", "", "book");
    handler.endElement("", "", "bookstore");
    handler.endDocument();
} catch (SAXException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
} catch (FileNotFoundException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
} catch (IOException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
} catch (TransformerConfigurationException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}

JDOM 建立

// 建立节点 
Element person = new Element("person");  
Element name = new Element("name");  
Element age = new Element("age");  
// 建立属性 
Attribute id = new Attribute("id","1");  
// 设置文本 
name.setText("lebyte");  
age.setText("10");  
// 设置关系 
Document doc = new Document(person);  
person.addContent(name);  
name.setAttribute(id);  
person.addContent(age);  
XMLOutputter out = new XMLOutputter();  
File file = new File("resource/outputjdom.xml");  
out.output(doc, new FileOutputStream(file.getAbsoluteFile()));

DOM4J 建立

// 使用 DocumentHelper 来建立 Document 对象 
Document document = DocumentHelper.createDocument();  
// 建立元素并设置关系 
Element person = document.addElement("person");  
Element name = person.addElement("name");   
Element age = person.addElement("age");  
// 设置文本  name.setText("lebyte"); 
age.setText("10"); 
// 建立格式化输出器 
OutputFormat of = OutputFormat.createPrettyPrint();  
of.setEncoding("utf-8");  
// 输出到文件 
File file = new File("resource/outputdom4j.xml");  
XMLWriter writer = new XMLWriter(new FileOutputStream(new  File(file.getAbsolutePath())),of);  
// 写出 
writer.write(document);  
writer.flush();  
writer.close();