快速解析XML

  SAX解析XML文件采用事件驱动的方式进行,也就是说,SAX是逐行扫描文件,遇到符合条件的设定条件后就会触发特定的事件,回调你写好的事件处理程序。使用SAX的优点在于其解析速度较快,相对于DOM而言占用内存较少。并且SAX在解析文件的过程当中获得本身须要的信息后能够随时终止解析,并不必定要等文件所有解析完毕。凡事有利必有弊,其劣势在于SAX采用的是流式处理方式,当遇到某个标签的时候,它并不会记录下之前所遇到的标签,也就是说,在处理某个标签的时候,好比在startElement方法中,所可以获得的信息就是标签的名字属性,至于标签内部的嵌套结构,上层标签、下层标签以及其兄弟节点的名称等等与其结构相关的信息都是不得而知的。实际上就是把XML文件的结构信息丢掉了,若是须要获得这些信息的话,只能你本身在程序里进行处理了。因此相对DOM而言,SAX处理XML文档没有DOM方便,SAX处理的过程相对DOM而言也比较复杂。html

        SAX采用事件处理的方式解析XML文件,利用 SAX 解析 XML 文档,涉及两个部分:解析器和事件处理器:
解析器可使用JAXP的API建立,建立出SAX解析器后,就能够指定解析器去解析某个XML文档。
解析器采用SAX方式在解析某个XML文档时,它只要解析到XML文档的一个组成部分,都会去调用事件处理器的一个方法,解析器在调用事件处理器的方法时,会把当前解析到的xml文件内容做为方法的参数传递给事件处理器。
事件处理器由程序员编写,程序员经过事件处理器中方法的参数,就能够很轻松地获得sax解析器解析到的数据,从而能够决定如何对数据进行处理。java

备注说明:SAX API中主要有四种处理事件的接口,它们分别是ContentHandlerDTDHandler, EntityResolver 和 ErrorHandler 程序员

 这里使用最多的就是ContentHandler,仔细阅读 API文档,了解经常使用方法:startElement、endElement、characters等web

 1.startElement方法说明api

[java]数组

  1. void startElement(String uri,  
                      String localName,  
                      String qName,  
                      Attributes atts)  
                      throws SAXException  
    方法说明:  
    解析器在 XML 文档中的每一个元素的开始调用此方法;对于每一个 startElement 事件都将有相应的 endElement 事件(即便该元素为空时)。全部元素的内容都将在相应的 endElement 事件以前顺序地报告。  
      
    参数说明:  
    uri - 名称空间 URI,若是元素没有名称空间 URI,或者未执行名称空间处理,则为空字符串  
    localName - 本地名称(不带前缀),若是未执行名称空间处理,则为空字符串  
    qName - 限定名(带有前缀),若是限定名不可用,则为空字符串 (标签名) 
    atts - 链接到元素上的属性。若是没有属性,则它将是空 Attributes 对象。在 startElement 返回后,此对象的值是未定义的(标签名属性)

 2.endElement方法说明app

[java]ide

  1.  

  2. void endElement(String uri,  
                    String localName,  
                    String qName)  
                    throws SAXException接收元素结束的通知。   
    SAX 解析器会在 XML 文档中每一个元素的末尾调用此方法;对于每一个 endElement 事件都将有相应的 startElement 事件(即便该元素为空时)。  
      
    参数:  
    uri - 名称空间 URI,若是元素没有名称空间 URI,或者未执行名称空间处理,则为空字符串  
    localName - 本地名称(不带前缀),若是未执行名称空间处理,则为空字符串  
    qName - 限定的 XML 名称(带前缀),若是限定名不可用,则为空字符串


3.characters方法测试

[java] spa

  1. void characters(char[] ch,  
                    int start,  
                    int length)  
                    throws SAXException  
    接收字符数据的通知,能够经过new String(ch,start,length)构造器,建立解析出来的字符串文本.  
    参数:  
    ch - 来自 XML 文档的字符  
    start - 数组中的开始位置  
    length - 从数组中读取的字符的个数


说明:xml中每一个标签的文本内容是在characters方法里处理的。

好比在以下:

  1. <?xml version="1.0" encoding="UTF-8"?>  
    <!DOCTYPE 四大名著[  
    <!ELEMENT 四大名著 (西游记,红楼梦)>  
    <!ATTLIST 西游记 id ID #IMPLIED>  
    ]>  
    <四大名著>  
        <西游记 id="x001">  
            <做者>吴承恩</做者>  
        </西游记>  
        <红楼梦 id="x002">  
            <做者>曹雪芹</做者>  
        </红楼梦>  
    </四大名著>

在<西游记 id="x001"><做者>吴承恩</做者></西游记>里

吴承恩这个文本就是在characters方法里处理的。

其中<西游记></西游记>和<做者></做者>是标签(qname)

id="x001"是属性(atts)和值

其它方法请参考api数据



下面咱们就具体讲解sax解析的操做.

一.咱们经过XMLReaderFactory、XMLReader完成,步骤以下

[java]

  1. 1.经过XMLReaderFactory建立XMLReader对象  
    XMLReader reader = XMLReaderFactory.createXMLReader();  
    2. 设置事件处理器对象  
    reader.setContentHandler(new MyDefaultHandler());  
    3.读取要解析的xml文件  
    FileReader fileReader =new FileReader(new File("src\\sax\\startelement\\web.xml"));  
    4.指定解析的xml文件  
    reader.parse(new InputSource(fileReader));


案例:经过案例对uri、localName、qName和attribute参数有更加深刻的了解

1.首先建立要解析的web.xml文件,内容以下

[html]

  1. <?xml version="1.0" encoding="UTF-8"?>  
    <web-app version="2.5"   
        xmlns:csdn="http://java.sun.com/xml/ns/javaee"   
        xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"   
        xsi:schemaLocation="http://java.sun.com/xml/ns/javaee   
        http://java.sun.com/xml/ns/javaee/web-app_2_5.xsd">  
      <csdn:display-name></csdn:display-name>     
    </web-app>  
    <!--   
    uri - 名称空间 URI,若是元素没有任何名称空间 URI,或者没有正在执行名称空间处理,则为空字符串。  
    xml namespace-xmlns  
    localName - 本地名称(不带前缀),若是没有正在执行名称空间处理,则为空字符串。  
    qName - 限定的名称(带有前缀),若是限定的名称不可用,则为空字符串。  
    attributes - 附加到元素的属性。若是没有属性,则它将是空的 Attributes 对象。   
     -->


2.建立解析测试类及事件处理的内部类代码以下

[java]

  1. package sax.startelement;  
      
    import java.io.File;  
    import java.io.FileReader;  
      
    import org.junit.Test;  
    import org.xml.sax.Attributes;  
    import org.xml.sax.InputSource;  
    import org.xml.sax.SAXException;  
    import org.xml.sax.XMLReader;  
    import org.xml.sax.helpers.DefaultHandler;  
    import org.xml.sax.helpers.XMLReaderFactory;  
      
    public class Demo3 {  
      
        @Test  
        public void test() throws Exception {  
            // 经过XMLReaderFactory建立XMLReader对象  
            XMLReader reader = XMLReaderFactory.createXMLReader();  
            // 设置事件处理器对象  
            reader.setContentHandler(new MyDefaultHandler());  
            // 读取要解析的xml文件  
            FileReader fileReader = new FileReader(new File(  
                    "src\\sax\\startelement\\web.xml"));  
            // 指定解析的xml文件  
            reader.parse(new InputSource(fileReader));  
        }  
      
        // 自定义的解析类,经过此类中的startElement了解uri,localName,qName,Attributes的含义  
        class MyDefaultHandler extends DefaultHandler {  
      
            @Override  
            public void startElement(String uri, String localName, String qName,  
                    Attributes attributes) throws SAXException {  
                super.startElement(uri, localName, qName, attributes);  
                System.out  
                        .println("--------------startElement开始执行--------------------------");  
                System.out.println("uri:::" + uri);  
                System.out.println("localName:::" + localName);  
                System.out.println("qName:::" + qName);  
                for (int i = 0; i < attributes.getLength(); i++) {  
                    String value = attributes.getValue(i);// 获取属性的value值  
                    System.out.println(attributes.getQName(i) + "-----" + value);  
                }  
                System.out.println("------------------startElement执行完毕---------------------------");  
            }  
      
        }  
    }


3.程序运行的结果以下:


经过运行结果,但愿你对uri,localName,qName有更加深刻的了解.


二.咱们经过SAXParserFactory、SAXParser完成,步骤以下(建议使用)

说明:若是只是使用SAXParserFactory、SAXParser他们完成只须要以下3步骤

1.获取sax解析器的工厂对象
SAXParserFactory factory = SAXParserFactory.newInstance();
2.经过工厂对象 SAXParser建立解析器对象
SAXParser saxParser = factory.newSAXParser();
3.经过解析saxParser的parse()方法设定解析的文件和本身定义的事件处理器对象
saxParser.parse(new File("src//sax//sida.xml"), new MyDefaultHandler());

案例:解析出"做者"元素标签中的文本内容

1.须要解析的sida.xml文件

[html]

  1. <?xml version="1.0" encoding="UTF-8"?>  
    <!DOCTYPE 四大名著[  
    <!ELEMENT 四大名著 (西游记,红楼梦)>  
    <!ATTLIST 西游记 id ID #IMPLIED>  
    ]>  
    <四大名著>  
        <西游记 id="x001">  
            <做者>吴承恩</做者>  
        </西游记>  
        <红楼梦 id="x002">  
            <做者>曹雪芹</做者>  
        </红楼梦>  
    </四大名著>


2.解析测试类和事件处理器类的实现代码

[java] 

  1. package sax;  
      
    import java.io.File;  
      
    import javax.xml.parsers.SAXParser;  
    import javax.xml.parsers.SAXParserFactory;  
      
    import org.junit.Test;  
    import org.xml.sax.Attributes;  
    import org.xml.sax.SAXException;  
    import org.xml.sax.helpers.DefaultHandler;  
      
    public class SaxTest {  
      
        @Test  
        public void test() throws Exception {  
            // 1.获取sax解析器的工厂对象  
            SAXParserFactory factory = SAXParserFactory.newInstance();  
            // 2.经过工厂对象 SAXParser建立解析器对象  
            SAXParser saxParser = factory.newSAXParser();  
            // 3.经过解析saxParser的parse()方法设定解析的文件和本身定义的事件处理器对象  
            saxParser.parse(new File("src//sax//sida.xml"), new MyDefaultHandler());  
      
        }  
      
        // 本身定义的事件处理器  
        class MyDefaultHandler extends DefaultHandler {  
      
            // 解析标签开始及结束的的标识符  
            boolean isOk = false;  
      
            @Override  
            public void startElement(String uri, String localName, String qName,  
                    Attributes attributes) throws SAXException {  
                super.startElement(uri, localName, qName, attributes);  
                // 当解析做者元素开始的时候,设置isOK为true  
                if ("做者".equals(qName)) {  
                    isOk = true;  
                }  
            }  
      
            @Override  
            public void characters(char[] ch, int start, int length)  
                    throws SAXException {  
                // TODO Auto-generated method stub  
                super.characters(ch, start, length);  
                // 当解析的标识符为true时,打印元素的内容  
                if (isOk) {  
                    System.out.println(new String(ch, start, length));  
                }  
            }  
              
            @Override  
            public void endElement(String uri, String localName, String qName)  
                    throws SAXException {  
                super.endElement(uri, localName, qName);  
                // 当解析做者元素的结束的时候,设置isOK为false  
                if ("做者".equals(qName)) {  
                    isOk = false;  
                }  
            }  
      
        }  
    }


3.程序运行结果以下:



原文地址:http://blog.csdn.net/redarmy_chen/article/details/12951649

相关文章
相关标签/搜索