UTF-8与BOM

时间 2019-11-21

标签 utf bom 繁體版

原文原文链接

BOM —— Byte Order Mark，中文名译做“字节顺序标记”。html

它是一个Unicode字符，它的编码是 FE FF，而 FF FE 在 UCS 中是不存在的字符，因此不该该出如今实际传输中，一般出如今文本的开头，用来标识字节序（Big/Little Endian），除此之外还能够标识编码（UTF-8/16/32）。浏览器

若是出如今文本中间，则解释为zero width no-break space，表达零宽度非换行空格的意义，用户看起来就是一个空格。但从Unicode3.2开始，U+FE FF只能出如今字节流的开头，只能用于标识字节序，除此之外的用法已被舍弃。取而代之的是，使用U+20 60来表达零宽度无断空白。编辑器

UTF-8不须要 BOM 来代表字节顺序，但能够用 BOM 来代表编码方式。字符 "Zero Width No-Break Space" 的 UTF-8 编码是 EF BB BF。因此若是接收者收到以 EF BB BF 开头的字节流，就知道这是 UTF-8编码了。Windows 就是使用 BOM 来标记文本文件的编码方式的，此仅是Windows的习惯，见UTF-8最好不要带BOM编码

相似WINDOWS自带的记事本等软件，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。它是一串隐藏的字符，用于让记事本等编辑器识别这个文件是否以UTF-8编码。对于通常的文件，这样并不会产生什么麻烦。但对于 PHP来讲，BOM是个大麻烦。spa

PHP并不会忽略BOM，因此在读取、包含或者引用这些文件时，会把BOM做为该文件开头正文的一部分。根据嵌入式语言的特色，这串字符将被直接执行（显示）出来。由此形成即便页面的 top padding 设置为0，也没法让整个网页紧贴浏览器顶部，由于在html一开头有这3个字符呢！code

不一样编码的字节顺序标记的表示

编码	表示(十六进制)	表示(十进制)
UTF-8	EF BB BF	239 187 191
UTF-16(大端序)	FE FF	254 255
UTF-16(小端序)	FF FE	255 254
UTF-32(大端序)	00 00 FE FF	0 0 254 255
UTF-32(小端序)	FF FE 00 00	255 254 0 0
UTF-7	2B 2F 76和如下的一个字节：[ 38 \| 39 \| 2B \| 2F ]	43 47 118和如下的一个字节：[ 56 \| 57 \| 43 \| 47 ]
en:UTF-1	F7 64 4C	247 100 76
en:UTF-EBCDIC	DD 73 66 73	221 115 102 115
en:Standard Compression Scheme for Unicode	0E FE FF	14 254 255
en:BOCU-1	FB EE 28及可能跟随着FF	251 238 40及可能跟随着255
GB-18030	84 31 95 33	132 49 149 51