Dom4j格式化转义字符问题
一、不得不说的XML CDATA部件
在XML文档中的全部文本都会被解析器解析。
只有在CDATA部件以内的文本会被解析器忽略。
不合法的XML字符必须被替换为相应的实体。
若是在XML文档中使用相似"<" 的字符, 那么解析器将会出现错误,由于解析器会认为这是一个新元素的开始。
< |
< |
小于号 |
> |
> |
大于号 |
& |
& |
和 |
' |
' |
单引号 |
" |
" |
双引号 |
实体必须以符号"&"开头,以符号";"结尾。
注意: 只有"<" 字符和"&"字符对于XML来讲是严格禁止使用的。剩下的都是合法的,为了减小出错,使用实体是一个好习惯。
CDATA部件
在CDATA内部的全部内容都会被解析器忽略。
若是文本包含了不少的"<"字符和"&"字符——就象程序代码同样,那么最好把他们都放到CDATA部件中。
一个 CDATA 部件以"<![CDATA[" 标记开始,以"]]>"标记结束:
CDATA注意事项:
CDATA部件之间不能再包含CDATA部件(不能嵌套)。若是CDATA部件包含了字符"]]>" 或者"<![CDATA[" ,将颇有可能出错哦。
一样要注意在字符串"]]>"之间没有空格或者换行符。
二、Dom4j格式化转义字符问题
person.xml
<?
xml
version
="1.0"
encoding
="UTF-8"
?>
<
person
>
<
name
>张三
</
name
>
<
addr
><![CDATA[经三路
<
鑫苑
>19F]]>
</
addr
>
</
person
>
上面的XML在被Dom4j格式化的时候,自动会被转义,转义后的内容以下:
<?xml version="1.0" encoding="GBK"?>
<person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
这样,显然不是想要的结果,由于CDATA不须要再转义了。如何处理该问题,看下面的程序的处理:
import org.dom4j.Document;
import org.dom4j.DocumentHelper;
import org.dom4j.Element;
import org.dom4j.io.OutputFormat;
import org.dom4j.io.XMLWriter;
import java.io.IOException;
import java.io.StringWriter;
import java.util.Date;
/**
* Created by IntelliJ IDEA.
*
* @author leizhimin 2010-7-10 16:03:39
*/
public
class Person {
private String name;
private String addr;
public Person(String name, String addr) {
this.name = name;
this.addr = addr;
}
public
static
void main(String[] args) {
Person p =
new Person(
"张三",
"经三路<鑫苑>19F");
p.showXml();
}
public
void showXml() {
String xml1, xml2, xml3;
Document doc = DocumentHelper.createDocument();
doc.setXMLEncoding(
"GBK");
Element root = doc.addElement(
"person");
if (addr !=
null)
addElement(root,
"toname",
"<![CDATA[" +
this.addr +
"]]>");
else
addElement(root,
"toname",
this.addr);
xml1 = doc.asXML();
//默认转义
xml2 = formatXml(doc,
"GBK",
true);
//转义
xml3 = formatXml(doc,
"GBK",
false);
//不转义
System.out.println(xml1);
System.out.println(
"-------------------------");
System.out.println(xml2);
System.out.println(
"-------------------------");
System.out.println(xml3);
}
/**
* 在指定的元素下添加一个新的子元素
*
* @param e 父元素
* @param name 子元素名
* @param value 子元素值
* @return 新加子元素
*/
public
static Element addElement(Element e, String name, Object value) {
Element x = e.addElement(name);
if (value ==
null || "".equals(value.toString().trim())) {
x.setText("");
}
else
if (value
instanceof Date) {
x.setText(DateToolkit.toISOFormat((Date) value));
}
else {
x.setText(value.toString());
}
return x;
}
/**
* 格式化XML文档
*
* @param document xml文档
* @param charset 字符串的编码
* @param istrans 是否对属性和元素值进行转移
* @return 格式化后XML字符串
*/
public
static String formatXml(Document document, String charset,
boolean istrans) {
OutputFormat format = OutputFormat.createPrettyPrint();
format.setEncoding(charset);
StringWriter sw =
new StringWriter();
XMLWriter xw =
new XMLWriter(sw, format);
xw.setEscapeText(istrans);
try {
xw.write(document);
xw.flush();
xw.close();
}
catch (IOException e) {
System.out.println(
"格式化XML文档发生异常,请检查!");
e.printStackTrace();
}
return sw.toString();
}
}
输出结果:
<?xml version="1.0" encoding="GBK"?>
<person><toname><![CDATA[经三路<鑫苑>19F]]></toname></person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
-------------------------
<?xml version="1.0" encoding="GBK"?>
<person>
<toname><![CDATA[经三路<鑫苑>19F]]></toname>
</person>
Process finished with exit code 0
能够看出,最后一种输出是真正想要的结果。
所以,要控制转义的问题,必须对XML从新格式化,格式化的时候,须要设置:
xw.setEscapeText(false);