内容为我的学习心得,不能对准确性作过多保证,错误之处还望指点。
有时候咱们会遇到一些\u开头的字符串,例如\u4f60\u597d
,咱们知道这些是Unicode码,一段\uxxxx字符串对应了一个Unicode字符。那这些编码字符的实际二进制存储格式是怎样呢?
咱们知道Unicode编码能够呈现世界上大部分的文字内容,而在其最通用的一种编码方式UTF-8
)下,单字符的存储长度为1-4字节(可变),这种设计的由来和优势就很少讲了,这里主要说说看到的u编码串和二进制的换算方式。
在UTF-8编码格式的java代码下,对“测试”两个字打印其字节和字符结果以下:java
System.out.println(Charset.defaultCharset()); String s = "测试"; System.out.println(s.chars().mapToObj(Integer::toHexString).collect(Collectors.joining("\t"))); byte[] bs = s.getBytes(); System.out.println(Arrays.toString(bs)); /*Result: UTF-8 6d4b 8bd5 [-26, -75, -117, -24, -81, -107] */
观察结果可知,“测试”两个字在UTF-8编码下占六个字节,将 【-26, -75, -117, -24, -81, -107】 6个数字转为二进制补码格式,即获得“测试”两字的二进制存储内容,为:11100110 10110101 10001011 11101000 10101111 10010101
而经过char.ToHexString获得的 6d4b 8bd5 是这两个字的Unicode编码
这二者是怎么关联上的呢?
经过UTF-8的百科页面有以下介绍:学习
UTF-8编码字节含义
- 对于UTF-8编码中的任意字节B,若是B的第一位为0,则B独立的表示一个字符(ASCII码);
- 若是B的第一位为1,第二位为0,则B为一个多字节字符中的一个字节(非ASCII字符);
- 若是B的前两位为1,第三位为0,则B为两个字节表示的字符中的第一个字节;
- 若是B的前三位为1,第四位为0,则B为三个字节表示的字符中的第一个字节;
- 若是B的前四位为1,第五位为0,则B为四个字节表示的字符中的第一个字节;
所以,对于上面获得的二进制串,每8位中的前面部分都是用来作标记的,1110开头代表须要3个字节来描述当前字符,而且当前字节为3字节中的第一部分,后面的字节使用10开头代表本身是当前字符编码串的后面部分。
把前三字节这些标记为去掉再合并,获得 0110 110101 001011,而“测”字的16进制Unicode编码转为二进制,正是0110 1101 0100 1011。
这样作的优势很明显,扩展方便(看起来能支持到8字节编码呢),编码结构去掉了二进制的标记位,减少体积更易于数据传输。1字节的UTF-8码还完整兼容了ASCII码,因此UTF-8能够说应该是大部分场景下的最优选择了。测试