文本在内存中的编码(1)——乱码探源(4)

时间 2019-11-06

标签文本内存编码乱码探源栏目字符编码繁體版

原文原文链接

让咱们从一个故事开始提及。话说北大是颇有哲学传统的，当你准备踏进北大校门时，连门卫都会连问你三个终极哲学问题：java

你是谁？你从哪里来？你要到哪里去？数组

那么这与咱们的问题又有何关系呢？我以为理解内存中的编码的关键在于理解String类型，所以咱们也来探讨一下String的前世此生：String是谁（什么）？String从哪里来？String到哪里去？编码

当咱们可以清晰地回答这三个终极问题时，对文本在内存中的编码也算理解得差很少了。spa

注：文中将用Java平台为例来探讨这些问题。.net

String是什么？

要回答这个问题，源码固然是最好的参考。代理

字符序列(CharSequence)

若是看String类型的声明：code

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {
    
    private final char value[];
	
	// ...
}

能够看到它实现了所谓的CharSequence接口，因此它是一个char序列，内部实质是一个char数组。blog

也即上述代码中的”char value[]“，（也许你以为”char[] value“的写法更习惯一些，二者是等价的）接口

若是再看String的length方法，事实就更清楚了，实际上取的是char数组的长度：内存

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {
    
    private final char value[];
	
	// ...
	
	public int length() {
        return value.length;
    }
}

到如今为止，能够这样看String：

char

如今新的问题是：什么是char呢？Java中的char是一种基础的数据类型，用于表示字符，长度为16位。

能够把char看做是无符号的16位短整型。

一个byte是8位，那么一个char就至关于两个byte了，因此也能够把String视做为byte数组。（这是毫无疑问的，事实上整个内存就是一个大大的byte数组）

那么一个String在内存中老是占据偶数个字节，具体地说是占用length()×2个字节。

固然，单独地拿出String中的一个byte出来是没有意义的，你老是须要两个两个一块儿地操做它们，但这并不妨碍咱们把它当作byte数组，它能够说是有点特殊的byte数组。

容量问题

显然，因为char是16位固定长度，它的容量老是有限的，上限是2¹⁶=65536，能表示0-65535（0x0000-0xFFFF）。

即使满打满算它也只能表示6万多个不一样字符而已，另外一方面，Unicode规划的字符空间高达100万以上，最新版本已经定义的字符也超过了10万。

规划的码点范围具体为U+0000-U+10FFFF。char能表示前面的U+0000-U+FFFF，对于U+10000-U+10FFFF则无能为力。

因此一个显然的事实就是单个的char没法表示全部的字符。好比下面的这个音乐符：

它的十进制的码点为119070，已经远超过65535，确定不能放到char里，实验也可证明这一点：

萝卜太多，坑位不够，怎么办呢？

解决方案

一种方式天然是对char进行扩展，好比弄成32位的，不过这样会形成很大的内存浪费。

另外一种方式就是对后面的那些字符使用两个char来表示，也便是所谓的代理对方式，须要注意的是不能跟单个char表示的字符冲突。

Java采用的就是这样方式，其后果是使得char没法与”抽象的字符“这一律念划上等号，一一对应的关系被打破了。

咱们具体来看下是怎么作的。

首先char有256×256=65536个空间：

经常使用的字符均可以在这个空间内表示，包括绝大多数的汉字。

好比“a”分配到的编码是“0061”，而“你”分配到的是“4F60”。

那么一个字符串，好比“a你”就有两个char，内存中占4个字节：

而后对于那个音乐符而言，它的码点为U+1D11E，有5位，固然不能简单直接地分红0001和D11E两部分。

这样会与U+0001和U+D11E冲突。

因此首先要保留一些char，它们单个而言不表明任何抽象的字符，具体地说保留了D800-DFFF共2048个位置：

而后横竖弄成一张表，可以造成100多万种组合（1K=1024）：

在这种表示方式下，U+1D11E对应的是D834和DD1E两个char：

具体的转换方式可见：字符集与编码（四）——Unicode

咱们就用这两个char一块儿来表示这个字符。这个字符没法放到单个的char中，但它能够放到String中，由于String是char数组。

综述

以上其实就是UTF-16的编码方式。你常常能听到这样的说法，好比：Java平台在内存中使用Unicode编码。这其实说得很笼统，让咱们把它说得更具体一些：

Java中的String类型在内存中使用UTF-16编码。

String以char做为它的构成单元，这样一个16位的char也称为UTF-16编码的一个代码单元（code unit）。

一般，一个char对应一个抽象的字符，但也可能须要两个char构成一个所谓的代理对才能表示一个抽象的字符。

因此这也致使了一些尴尬的状况，对于一些抽象字符它的长度是2.

这与咱们的直觉不符，又以下面的状况：

两个抽象字符，内部为3个char，因此长度是3，在内存中则占据了6个字节。你可能不是很喜欢这样的String类型，但事实就是这样。

另可见字符集与编码（五）——代码单元及length方法

其它选择

天然，你有不少的选择。若是你本身去实现一个语言平台，你固然也能够选择一个其它的编码，好比UTF-8，甚至是UTF-32做为String的内部编码。

考虑到UTF-32用四字节表示一个字符，一般一个int类型也是4字节，那么这种方式几乎能够认为是用一个int数组来保存字符。

明白了String是什么以后，在下一篇再继续探讨String从哪里来的问题。咱们将深刻探讨String的构造，字节流和字符流以及编码间的转换等问题。