Java处理带BOM的文本

时间 2020-01-19

标签 java 处理 bom 文本栏目 Java 繁體版

原文原文链接

Java处理带BOM的文本

提及BOM，这个问题还比较麻烦，由于BOM不可见，但用程序作不一样编码文本处理时候却经常须要考虑到BOM的问题。在此以前，先对BOM作个简单认识。

先看看带BOM的文件：

源文件：

16进制打开：

下面举个例子，针对UTF-8的文件BOM作个处理：

                String xmla = StringFileToolkit.file2String( new File( "D:\\projects\\mailpost\\src\\a.xml"), "UTF-8");
                 byte[] b = xmla.getBytes( "UTF-8");
                String xml = new String(b,3,b.length-3, "UTF-8");
                Document doc1 = DocumentHelper.parseText(xml);
                Element e1 = (Element)doc1.selectSingleNode( "/ResponseData/Body/RetDesc");
                Element e2 = (Element)doc1.selectSingleNode( "/ResponseData/Head/RespID");
                Element e3 = (Element)doc1.selectSingleNode( "/ResponseData/Body/RetCode");
                Element e4 = (Element)doc1.selectSingleNode( "/ResponseData/Body/RetDesc");

思路是：先按照UTF-8编码读取文件后，跳过前三个字符，从新构建一个新的字符串，而后用Dom4j解析处理，这样就不会报错了。

其余编码的方式处理思路相似，其实能够写一个通用的自动识别的BOM的工具，去掉BOM信息，返回字符串。

不过这个处理过程已经有牛人解决过了： http://koti.mbnet.fi/akini/java/unicodereader/

-------------------------------------------------一下引用了百科

什么是BOM

BOM （ byte-order mark ），即字节顺序标记，它是插入到以 UTF-8 、 UTF16 或 UTF-32 编码 Unicode 文件开头的特殊标记，用来识别 Unicode 文件的编码类型。对于 UTF-8 来讲， BOM 并非必须的，由于 BOM 用来标记多字节编码文件的编码类型和字节顺序（ big-endian 或 little-endian ）。

在绝大多数编辑器中都看不到 BOM 字符，由于它们能理解 Unicode ，去掉了读取器看不到的题头信息。若要查看某个 Unicode 文件是否以 BOM 开头，可使用十六进制编辑器。下表列出了不一样编码所对应的 BOM 。

BOM	Encoding
EF BB BF	UTF-8
FE FF	UTF-16 (big-endian)
FF FE	UTF-16 (little-endian)
00 00 FE FF	UTF-32 (big-endian)
FF FE 00 00	UTF-32 (little-endian)

BOM的来历

为了识别 Unicode 文件， Microsoft 建议全部的 Unicode 文件应该以 ZERO WIDTH NOBREAK SPACE （ U+FEFF ）字符开头。这做为一个 “ 特征符 ” 或 “ 字节顺序标记（ byte-order mark ， BOM ） ” 来识别文件中使用的编码和字节顺序。

不一样的系统对BOM的支持

由于一些系统或程序不支持 BOM ，所以带有 BOM 的 Unicode 文件有时会带来一些问题。

1. JDK1.5 以及以前的 Reader 都不能处理带有 BOM 的 UTF-8 编码的文件，解析这种格式的 xml 文件时，会抛出异常： Content is not allowed in prolog.

2. Linux/UNIX 并无使用 BOM ，由于它会破坏现有的 ASCII 文件的语法约定。

不一样的编辑工具对 BOM 的处理也各不相同。使用 Windows 自带的记事本将文件保存为 UTF-8 编码的时候，记事本会自动在文件开头插入 BOM （虽然 BOM 对 UTF-8 来讲并非必须的），可是 editplus 就不会这样作。

BOM与XML

XML 解析读取 XML 文档时， W3C 定义了 3 条规则：

1. 若是文档中有 BOM ，就定义了文件编码；

2. 若是文档中没有 BOM ，就查看 XML 声明中的编码属性；

3. 若是上述二者都没有，就假定 XML 文档采用 UTF-8 编码。

参考资料：

1. UTF-8, UTF-16, UTF-32 & BOM ： http://www.unicode.org/faq/utf_bom.html#BOM

2. XML FAQ ： Encoding ： http://www.opentag.com/xfaq_enc.htm

3. Linux Unicode 编程： http://www.ibm.com/developerworks/cn/linux/i18n/unicode/linuni/

http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4508058

http://koti.mbnet.fi/akini/java/java_utf8_xml/

http://koti.mbnet.fi/akini/java/unicodereader/

http://www.unicode.org/faq/utf_bom.html