xml语法、DTD约束xml、Schema约束xml、DOM解析xml

时间 2019-11-13

标签 xml 语法 dtd 约束 schema dom 解析栏目 XML 繁體版

原文原文链接

今日大纲

一、什么是xml、xml的做用css

二、xml的语法html

三、DTD约束xmlnode

四、Schema约束xmldom

五、DOM解析xmleclipse

一、什么是xml、xml的做用

1.一、xml介绍

在前面学习的html语言，html是超文本标记语言，使用html语言规定好的标签来封装文本数据。而html使用的标签html语言规定好的，每一个标签都有本身特定的功能。工具

xml语言，可扩展的标记语言，这门语言它没有定义任何的标记，而标记是由使用者本身来定义，可是因为标签名称以及属性名称都由用户本身来命名，致使别人在使用的时候很不方便。有给xml语言定义了一些约束文档，这些约束文档就专门用来约束当前这个xml中可以书写的具体的标签以及属性等信息。学习

1.二、xml的做用

xml做用：

　　一、存储和传输复杂的关系模型数据

　　二、做为配置文件存在，xml中主要配置的一些具备复杂的层级关系的数据，Properties文件中主要配置的一些key和value这样的数据。

　　在软件系统中，做为配置文件使用

　　为提升系统的灵活性，它所启动的模块一般由其配置文件决定

　　例如一个软件在启动时，它须要启动Ａ、Ｂ两个模块，而A、Ｂ这两个模块在启动时，又分别须要A一、A2和B一、B2模块的支持，为了准确描述这种关系，此时使用ＸＭＬ文件最为合适不过。

　　<soft>
       　　<A>
             　　 <A1></A1>
            　　  <A2></A2>
  　　     </A>
      　　 <B>
       　　       <B1></B1>
       　　       <B2></B2>
     　　  </B>
　　</soft>

二、xml的语法

2.一、文档声明

来声明当前的xml类型。
<?xml   ?>  在这个尖括号中书写标签的属性来声明当前的xml类型限定。
属性：版本号   字符编码   是不是独立存在的xml文档

<?xml version=”1.0” encoding=”编码表” standalone=”yes|no” ?>

例如：
<?xml version=”1.0”  encoding=”UTF-8” ?>

在定义xml的文档声明时 <?之间不能有空白的内容        ?> 它们之间也不能有空格
中间书写的属性使用空格隔开。

2.二、元素（标签）

xml中的标签也分红单标签和双标签。注意在xml全部的标签必须闭合。xml中的标签区别大小写。
<a1>   <A1>表示2个不一样的标签。
xml中的标签能够嵌套，可是不能交差嵌套。
<a1><b1></b1></a1>
<a1><b1></a1></b1>
xml的标签只能有一个根标签。同时xml标签中的空白内容也会被解析成文本内容。
<网址>www.itcast.cn</网址>
标签不能以数字开始，不建议如下划线开始，同时在标签名中不要使用冒号。
标签名能够是中文，可是必定指定可以识别中文的码表。但不建议书写中文。

2.三、属性

在定义标签的时候，能够在标签上书写属性，属性是由key和alue值组成。属性名书写的时候也遵照标签名的规则。属性值也不能以数字开始。
属性和值之间使用=链接，属性值可使用单引号也可使用双引号。
<user uid=”u001” name=”zhang’san”></user>
另外：在xml技术中，标签属性所表明的信息，也能够改成用子元素的形式来描述，如：
<input><type>text</type></input>

2.四、注释

xml中的注释和html注释相同。<!--  这里书写具体的注释内容  -->
在eclipse中可使用ctrl + shift + c 给每行添加注释，也可使用ctrl + shift + /  添加注释  ctrl + shift + \ 取消注释
注释不能加在声明中及声明前。

2.五、文本和特殊字符

在编写XML文件时，有些内容可能不想让解析引擎解析执行，而是看成原始内容处理。
遇到此种状况，能够把这些内容放在CDATA区里，对于CDATA区域内的内容，XML解析程序不会处理，而是直接原封不动的输出。
语法：<![CDATA[ 内容 ]]>
    <![CDATA[
        <itcast>
            <br/>
        </itcast>
    ]]>
对于一些单个字符，若想显示其原始样式，也可使用转义的形式予以处理。

2.六、特殊指令

处理指令，简称PI （processing instruction）。处理指令用来指挥解析引擎如何解析XML文档内容。

例如，在XML文档中可使用xml-stylesheet指令，通知XML解析引擎，应用css文件显示xml文档内容。    <?xml-stylesheet type="text/css" href="1.css"?>

处理指令必须以“<?”做为开头，以“?>”做为结尾，XML声明语句就是最多见的一种处理指令。

2.七、xml语法规则总结：

全部xml元素必须有闭合标签；
Xml标签区分大小写；
Xml必须正确地嵌套顺序；
Xml文档必须有根元素（且只有一个）；
Xml属性值须加引号
特殊字符必须转义——CDATA；
Xml中的空格、回车换行会被解析！

三、DTD约束xml

3.一、约束介绍

　　因为xml的标签由用户本身定义，所以在开发的时候，每一个人均可以根据本身的需求来定义xml标签，这样致使项目中的xml难以维护，所以须要使用必定的规范机制来约束xml文件中的标签书写。ui

3.二、DTD约束快速入门　

　　第一步：先本身定义一个xml文件编码

<?xml version="1.0" encoding="UTF-8"?>
<users>
    <user>
        <name>zhangsan</name>
        <age>23</age>
        <addr>shanghai</addr>
    </user>
    <user>
        <name>lisi</name>
        <age>24</age>
        <addr>beijing</addr>
    </user>
</users>

　　第二步：书写DTD文件来约束xml文件spa

　　DTD文件在定义的时候，扩展名就是dtd。

　　在xml文件中有多少个标签，就在dtd中书写多少个ELEMENT标签

<?xml version="1.0" encoding="UTF-8" ?>
<!ELEMENT users (user+) >
<!ELEMENT user (name,age,addr) >
<!ELEMENT name (#PCDATA) >
<!ELEMENT age (#PCDATA)>
<!ELEMENT addr (#PCDATA)>

3.三、DTD引入方式

DTD主要用来约束xml文件，DTD能够单独写在文件中，也能够直接定义在xml中，能够在xml中引入第三方的公共DTD。

外部DTD的引入方式：外部DTD主要指的一个独立的DTD文件。
首先要书写DTD文件，而后在要被约束的xml文件中引入。
<!DOCTYPE 文档根结点 SYSTEM "DTD文件的URL">
文档根结点 指的是当前xml中的根标签。
SYSTEM  引入的系统中存在文件
"DTD文件的URL" DTD存放的位置

引入公共的DTD：
<!DOCTYPE 文档根结点 PUBLIC "DTD名称" "DTD文件的URL">
文档根结点 指的是当前xml中的根标签。
PUBLIC  表示当前引入的DTD是公共的DTD


在xml中直接书写DTD
<!DOCTYPE  根标签名 [
具体的标签的约束
]>

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE users[
    <!ELEMENT users (user+) >    
    <!ELEMENT user (name,age,addr) >    
    <!ELEMENT name (#PCDATA) >    
    <!ELEMENT age (#PCDATA) >    
    <!ELEMENT addr (#PCDATA) >    
]>
<users>
    <user>
        <name>zhangsan</name>
        <age>23</age>
        <addr>shanghai</addr>
    </user>
    <user>
        <name>lisi</name>
        <age>24</age>
        <addr>beijing</addr>
    </user>
</users>

3.四、DTD的语法介绍

3.4.一、元素

当定义DTD约束xml时候，这时须要在DTD中使用ELEMENT来定义当前xml中能够出现的标签名称。
格式：
<!ELEMENT 标签名 约束>  约束来限定当前标签中能够有的子标签，或者当前标签中能够书写的内容
在定义标签名的时候，约束中可使用一些符号标签具体出现次数
?    零次或者一次
*  零次或者屡次
+    一次或者屡次   users (user+)   表示当前的users标签下能够有一个或者多个user标签
,   用来限定当前的子标签出现的顺序user (name,age,addr)  user标签下只能有name age addr 子标签，而且必须按照name  age  addr的顺序书写
|  user (name|age,addr) user下能够name或者age ，但必须有addr，而且addr必须name或age后面
#PCDATA        代表该元素可包含任何字符数据，但不能在其中包含任何子元素。只有 PCDATA 的元素经过圆括号中的 #PCDATA 进行声明
EMPTY    代表该元素不能有任何子元素或文本，仅可使用属性。
ANY        表该元素中能够包含任何DTD中定义的元素内容 如：<!ELEMENT note ANY>
<!ELEMENT age EMPTY >  当前的age标签是个空标签，它不能有文本内容。

3.4.二、属性

在xml中的标签上是能够书写属性的，在DTD中就须要对属性进行约束。
格式：
<!ATTLIST 标签名 属性名 属性的类型  属性的约束>
若是一个标签上有多个属性
<!ATTLIST 标签名 属性名 属性的类型  属性的约束
                                  属性名 属性的类型  属性的约束
  属性名 属性的类型  属性的约束
>

<标签名 属性1=””  属性2=””  属性3=”” >

属性的类型：
CDATA  属性的value值能够是文本数据
(值1 | 值2 | 值3....   )  表示当前的属性的value值只能是当前括号中的值
ID 表示惟一。对当前标签上的id属性进行限定，而且同一个xml中id不能重复
 
类型    描述
CDATA    值为字符数据 (character data)
(en1|en2|..)    此值是枚举列表中的一个值
ID    值为惟一的 id
IDREF    值为另一个元素的 id
IDREFS    值为其余 id 的列表
NMTOKEN    值为合法的 XML 名称
NMTOKENS    值为合法的 XML 名称的列表
ENTITY    值是一个实体
ENTITIES    值是一个实体列表
NOTATION    此值是符号的名称
xml:    值是一个预约义的 XML 值

属性的约束：
REQUIRED 属性是必须书写的
Implied 属性是可选得
#fixed value 属性的value是固定的值   
“值”  表明属性的默认值
user name CDATA  fixed “zhangsan”
<user name=”zhangsan”>
user name CDATA “张三”
<user />

属性的类型和约束的组合：
CDATA   REQUIRED
CDATA   Implied
CDATA   fixed
CDATA  “值” 
(值1 | 值2 | 值3....   )  REQUIRED
ID   REQUIRED

3.4.三、实体

实体用于为一段内容建立一个别名，之后在XML文档中就可使用别名引用这段内容了。
在DTD定义中，一条<!ENTITY …>语句用于定义一个实体。
实体能够理解成Java中预先定义好的一个常量，而后xml文件中就能够引入当前这个定义的实体。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE users[
    <!ELEMENT users (user+) >    
    <!ELEMENT user (name,age,addr) >    
    <!ELEMENT name (#PCDATA) >    
    <!ELEMENT age EMPTY >    
    <!ELEMENT addr (#PCDATA) >    
    <!ATTLIST user id ID #REQUIRED >
    <!ENTITY  abc "上海传智播客123123">
]>
<users>
    <user id="u001">
        <name>zhangsan</name>
        <age></age>
        <addr>&abc;</addr>
    </user>
    <user id="u002">
        <name>lisi</name>
        <age/>
        <addr>&abc;</addr>
    </user>
</users>

四、Schema约束xml

4.一、xml Schema介绍

Schema它也来约束xml文件的，DTD在约束xml的时候一个xml中只能引入一个DTD，同时DTD它没法对属性以及标签中的数据作数据类型的限定。
Schema它是用来代替DTD来约束xml。
Schema文件自己就是使用xml文件书写的，同时它对须要约束的xml中的数据有严格的限定。学习Schema主要来学习W3C组织定义的如何在Schema中去约束xml的标签以及属性，还有属性的数据类型，以及标签中子标签的顺序。
要定义一个Schema文件，这时它的扩展名必须是.xsd。在这个文件中根元素必须是schema。
使用Schema来约束xml，Schema在书写的时候，只须要使用W3C组织提早定义的限定标签的，以及限定的属性的那个标签便可。

4.二、Schema快速入门

　　第一步：书写xml文件

<?xml version="1.0" encoding="UTF-8"?>
<books>
    <book>
        <name>JavaWEB</name>
        <author>老毕</author>
        <price>182</price>
    </book>
    <book>
        <name>SSH</name>
        <author>老于</author>
        <price>152</price>
    </book>
</books>

　　第二步：定义schema文件

在定义Schema文件的时候，因为这个Schema文件自己就是xml，它也要受到别的约束。而这个约束是W3C组织提早定义好的，
在Schema文件中须要提早引入进来在根标签中使用属性进行进入：
<schema  xmlns="http://www.w3.org/2001/XMLSchema"   引入W3C定义的schema书写的规范
targetNamespace="http://www.itcast.org/book" 给当前的Schema文件起名字（命名空间）
做用是当哪一个xml要引入这个schema约束的时候，必须经过当前targetNamespace 后面书写的uri地址来引入

<?xml version="1.0" encoding="UTF-8"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema" 
    targetNamespace="http://www.itcast.org/book" 
    elementFormDefault="qualified">
    <element name="books">
        <complexType>
            <sequence>
                <element name="book">
                    <complexType>
                        <sequence>
                            <element name="name"></element>
                            <element name="author"></element>
                            <element name="price"></element>
                        </sequence>
                    </complexType>
                </element>
            </sequence>
        </complexType>
    </element>
</schema>

　　第三步：在xml文件中引入当前的这个Schema

<books xmlns="http://www.itcast.org/book"   它是schema文件中的targetNamespace 属性后面的值
        xsi:schemaLocation="http://www.itcast.org/book book.xsd"   这个是在引入当前的schema文件的真实路径
        xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"   说明当前的xml是schema一个实例文档
>

4.三、Schema的名称空间

在定义Schema文件的时候，须要在<schema>根标签中使用
targetNamespace  属性定义当前schema定义名称（只是一个分配的名字，根本没有指向任何文件），在被约束的xml文件中先根据这个名称引入当前的schema文件，而后在使用
xsi：schemaLocation=””    引入具体的schema文件。（由于targetNamespace属性定义的schema名称，只是一个名称而已，因此在xml文件中须要经过schemaLocation来声明指定所遵循的Schema文件的具体位置）
（xsi：schemaLocation 使用它引入某个schema时，先要使用名称空间， 空格 ，文件名）

名称空间主要功能是用于来
elementFormDefault="qualified|unqualified"   
在schema中书写qualified ，在限定xml中的定义的标签名必须使用定义的名称空间。
unqualified 要求根元素必须使用名称空间，而子元素不能使用名称空间。

4.四、Schema中的标签解释

　　Book2.xsd

<?xml version="1.0" encoding="UTF-8"?>
<schema xmlns="http://www.w3.org/2001/XMLSchema" 
    targetNamespace="http://www.itcast2.org/book" 
    elementFormDefault="qualified">
    <element name="books">  <!--name表明当前的xml中能够书写标签名称  type数据类型-->
        <complexType ><!-- complexType 当前的element声明的标签是复杂标签时 ，须要使用complexType来声明子标签-->
            <sequence>  <!-- 复杂标签是指有属性，或者有子标签，或者有属性有子标签的标签 
                                简单标签是指只有文本内容的标签
                                <name>zhangsan</name>  简单标签
                                <name id="u001"></name>  复杂标签
                                sequence 表明当前子标签的顺序
                            -->
                <element name="book" maxOccurs="unbounded">
                    <complexType mixed="true"><!—mixed属性值为true，book元素间就能够出现字符文本数据了-->
                        <sequence>
                            <element name="name"></element>
                            <element name="author"></element>
                            <element name="price" type="integer"></element>
                            <any></any>
                        </sequence>
                    </complexType>
                </element>
            </sequence>
        </complexType>
    </element>
</schema>

　　Name.xsd

<schema xmlns="http://www.w3.org/2001/XMLSchema" 
    targetNamespace="http://www.example.org/name" 
    elementFormDefault="qualified">
    <element name="name"></element>
</schema>

　　Book2.xml

<?xml version="1.0" encoding="UTF-8"?>
<aa:books xmlns:aa="http://www.itcast2.org/book"
    xmlns:bb="http://www.example.org/name"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://www.itcast2.org/book book2.xsd 
                        http://www.example.org/name name.xsd"
    >
    <aa:book>
        aa:sjdlkfjlkdsjflk    
        <aa:name >JavaWEB</aa:name>
        <aa:author >老毕</aa:author>
        <aa:price>182</aa:price>
        <bb:name>sdgs</bb:name>
    </aa:book>
</aa:books>

五、DOM解析xml

5.一、Java中的解析技术介绍

w3c组织在定义xml的时候，就规范了如何去解析xml文件，其中就定义了使用dom技术来解析xml文件。
DOM：Document Object Medel。文档对象模型。
w3c给出的dom解析，第一步是先把整个xml文件加载到内存，而后在内存中造成了一颗dom树。
特色：
    一次将全部数据所有加载到内存中；
    对xml文档中每一个节点都当成一个Node对象处理。包括元素、文本、属性。
    缺点就是当文档数据量很大时，对内存有占用很大，因此不适合解析大量的数据。

5.二、DOM解析

　　Xml文档的属性结构

DOM解析是把整个xml文档加载到内存中，而后造成一个dom树，这样就能够获取树中的全部标签，属性，文本内容。
Java实现了相应的dom解析技术：
  使用Java提供的Dom技术来解析xml文件
  
  DocumentBuilderFactory：这个是一个工厂类，主要负责生产一个解析xml的解析器对象
      newDocumentBuilder()静态方法能够获取到一个用于解析xml的解析器对象
          DocumentBuilderFactory.newDocumentBuilder();
          获取到了DocumentBuilder对象
  
  DocumentBuilder 这个类能够从xml中得到DOM对象
          使用parse方法解析一个文件路径，就能够获得当前xml文件对象
  解析xml文件首先要获取到xml文件对象即就是Document对象

5.三、DOM获取节点、属性、文本数据

// 获取DOM标签的信息
    @Test
    public void get() throws Exception {
        // 获取工厂实例对象
        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        // 获取解析器对象
        DocumentBuilder db = dbf.newDocumentBuilder();
        // 解析xml获取dom对象
        Document dom = db.parse("book.xml");
        // 获取根元素：
        Node node = dom.getFirstChild();
        // 获取标签的名字
        System.out.println(node.getNodeName());
        // 获取到每一个标签对象，都是一个element的实例对象
        Element root = (Element) node;
        // 获取books下面的全部book标签
        NodeList nl = root.getElementsByTagName("book");
        for (int i = 0; i < nl.getLength(); i++) {
            // 获取到每一个book标签对象
            Element book = (Element) nl.item(i);
            // NodeList book_child = book.getChildNodes();
            Element name = (Element) book.getElementsByTagName("name").item(0);
            Element author = (Element) book.getElementsByTagName("author")
                    .item(0);
            Element price = (Element) book.getElementsByTagName("price")
                    .item(0);
            // 获取name标签下的文本值
            System.out.println(name.getTextContent());
            // 获取标签上的属性值
            System.out.println(name.getAttribute("id"));
            // 获取author标签下的文本值
            System.out.println(author.getTextContent());

            // 获取price标签下的文本值
            System.out.println(price.getTextContent());

            System.out.println("-------------------");

        }
    }

5.四、修改xml中的数据

/*
     * 修改dom中标签的信息
     * 把books中的第二个book标签中的price的值改成100
     * 
     */
    @Test
    public void update() throws Exception {
        // 获取工厂实例对象
        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        // 获取解析器对象
        DocumentBuilder db = dbf.newDocumentBuilder();
        // 解析xml获取dom对象
        Document dom = db.parse("book.xml");
        //使用dom树直接根据标签名获取对应的标签对象
        Element book = (Element) dom.getElementsByTagName("book").item(1);
        //获取price标签
        Element price = (Element) book.getElementsByTagName("price").item(0);
        price.setTextContent("100");
        System.out.println(price.getTextContent());
        
        //把修改的整个dom树从新写到文件中
        TransformerFactory tff = TransformerFactory.newInstance();
        //获取转换器
        Transformer transformer = tff.newTransformer();
        //和文件关联出去结果对象
        StreamResult sr = new StreamResult("book.xml");
        //把dom转成原始数据对象
        DOMSource ds = new  DOMSource(dom);
        //保存数据
        transformer.transform(ds, sr);
    }

当要把修改后的xml中的数据保存到xml中须要使用Transformer 类中的transform方法

TransformerFactory这个工厂负责生产一个把dom树写到文件中的对象

Transformer 负责把一个dom写到文件中。

总结：

Java提供的dom操做方式：

第一步：须要获取到相应的工厂

第二步：根据工厂获取相应的工具或者解析器对象

第三步：根据解析器获取dom对象，再操做dom树中的节点，或者是获取到相应的工具，而后使用工具对dom树进行保存等操做