UTF-8 BOM头

BOM是什么

Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS能够看做是"Unicode Character Set"的缩写。在UCS 编码中有一个叫作 "Zero Width No-Break Space",中文译名做“零宽无间断间隔”的字符,它的编码是 FEFF。而 FFFE 在 UCS 中是不存在的字符,因此不该该出如今实际传输中。UCS 规范建议咱们在传输字节流前,先传输字符 "Zero Width No-Break Space"。这样若是接收者收到 FEFF,就代表这个字节流是 Big-Endian 的;若是收到FFFE,就代表这个字节流是 Little- Endian 的。所以字符 "Zero Width No-Break Space" (“零宽无间断间隔”)又被称做 BOM(即Byte Order Mark)。编辑器

UTF-8 BOM头又是什么

UTF-8以字节为编码单元所以不须要 BOM 来代表字节顺序,但能够用 BOM 来代表编码方式。字符 "Zero Width No-Break Space" 的 UTF-8 编码是 EF BB BF。因此若是接收者收到以 EF BB BF 开头的字节流,就知道这是 UTF-8编码了。编码

所以UTF-8编码的字符串开头处的三个bytes 0xef,0xbb,0xbf就称为UTF-8 BOM头。spa

为何excel打开没有BOM头的csv文件会乱码?

相似WINDOWS自带的记事本等软件,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入UTF-8 BOM头。记事本等编辑器经过它来识别这个文件是否以UTF-8编码(固然即使没有UTF-8 BOM头记事本也能经过其它方式正确识别UTF-8编码)。excel

那么若是一个UTF-8编码的字符串的开头处没有BOM头又会发生什么?
好比咱们用C#建立一个csv文件,里面保存中文,日文等多国语言的字符串而后以UTF-8编码保存(此时没有UTF-8 BOM头)。
记事本可以识别,可是excel却识别出错:code

这是一个已知的问题,Excel打开没有BOM头的csv文件时就是会这样!
解决的办法也很简单,在生成字符串时手动把UTF-8 BOM头添加在字符串的开头处,下面是C#代码:
sb.Append('\uFEFF');blog

好了,从新用Excel打开,已经能够正确识别了!ip

相关文章
相关标签/搜索