JAVA输出带BOM的UTF-8编码的文件

时间 2019-11-16

标签 java 输出 bom utf 编码文件栏目 Java 繁體版

原文原文链接

当从http 的response输出CSV文件的时候，设置为utf8的时候默认是不带
bom的，但是windows的Excel是使用bom来确认utf8编码的，所有需要把bom写到文件的开头。

微软在 UTF-8 中使用 BOM 是因为这样可以把 UTF-8 和 ASCII 等编码明白区分开。
不然用Excel打开CSV文件有多是乱码的
演示样例代码例如如下:
response.setContentType("text/csv");
response.setHeader("Content-Disposition", "attachment;filename=" + fileName);
response.setCharacterEncoding("UTF-8");
byte[] uft8bom={(byte)0xef,(byte)0xbb,(byte)0xbf};
OutputStream out = response.getOutputStream();
out.write(uft8bom);

OutputStreamWriter writer = new OutputStreamWriter(out,"UTF-8");

//write other content ...

什么是BOM:
BOM（byte-order mark），即字节顺序标记，它是插入到以UTF-八、UTF16或UTF-32编码Unicode文件开头的特殊标记，用来识别Unicode文件的编码类型。对于UTF-8来讲，BOM并不是必须的。因为BOM是用来标记多字节编码文件的编码类型和字节顺序（big-endian或little- endian）。php

而UTF8中，每个字符的编码有多少位是经过第一个字节来表述的。而且没有big-endian和little-endian的区分，见后述。

BOMs 文件头:
   00 00 FE FF    = UTF-32, big-endian
   FF FE 00 00    = UTF-32, little-endian
   EF BB BF       = UTF-8,
   FE FF          = UTF-16, big-endian
   FF FE          = UTF-16, little-endian

另外一个要注意的是:UTF-8 的网页代码不该使用 BOM。不然常常会出错：
在网页上使用BOM是个错误。windows

BOM设计出来不是用来支持HTML和XML的。要识别文本编码，HTML有charset属性，XML有encoding属性，不是必需拉BOM撑场面。尽管理论上BOM可以用来识别UTF-16编码的HTML页面，但实际project上很是少有人这么干。毕竟UTF-16这样的编码连ASCII都双字节，实在不适用于作网页。

Windows使用BOM的历史缘由:
一般BOM是用来标示Unicode纯文本字节流的，用来提供一种方便的方法让文本处理程序识别读入的.txt文件是哪一个Unicode编码（UTF-8。UTF-16BE，UTF-16LE）。post

Windows相对对BOM处理比較好，是因为Windows把Unicode识别代码集成进了API里。主要是CreateFile()。打开文本文件时它会本身主动识别并剔除BOM。编码

Windows用这个有历史缘由，因为它最初脱胎于多代码页的环境。而引入Unicode时Windows的设计者又但愿能在用户不注意的状况下同一时候兼容Unicode和非Unicode（Multiple byte）文本文件，就仅仅能借助这样的小trick了。设计

带BOM的文本文件在Linux/unix环境又常常会遇到问题:
知乎介绍的很是具体:
http://www.zhihu.com/question/20167122

文本文件解析：
文本文件相应于人类可以阅读的文本，怎样从2进制转换为文本文件呢？起初因为计算机在美国发明。天然你们考虑的是英语怎样表示，英语字母总共26个。加上特殊字符，128个字符，7位既一个byte就能够表示出来。这个就是你们所熟知的ascill编码。unix

相应关系很是easy，一个字符相应一一个byte。code

但很是快发现。其它非英语国家的文字远远超过ascill码，这时候你们固然想统一一下。不一样国家出了本身不一样的编码方式。中国的gb2312就是本身作出来的编码方式，这样下去每个国家都有本身的编码方式，来回转换太麻烦了。这时候出现了新的编码方式，unicode编码方式，想将编码统一，因此规定了每个字符相应的unicode码。一、很是多文件都是ascii编码，假设用unicode 太浪费。ip

二、没有标志位说明该几个字节来解析为一个符号。这时候解救世界的utf出现了。utf是unicode的一种实现，仅仅只是更聪明了。utf16是占用两字节，或者四字节。utf32是占用四字节。utf-8

utf8是很是聪明的一种表示方式。ci

一、对于单字节符号，字节第一位为0，后面7位表示字节编码。

二、对于n字节符号，第一字节的前n位都设为1，第n＋1位为0。其他位用于编码。
对于不一样的编码，在文本的最前方有不一样的标志，unicode 一般有两位来表示各自是ff fe，或者feff， fffe表示litte－endian 编码feff表示big－endian编码。
utf8是efbbbf来开头的。

可以看出来utf-8是自解释的。因此不用带这个标志文件，大多数程序是可以识别的。

但有些程序不能识别这个标志，比方php就会直接把这个标志当文本解析，不会忽略。