简介编码
Unicode编码是一种统一标识字符串的方法,即一个字符串对应一个编号(code point),表示为U+xxxx。其中xxxx为十六进制的编号,范围是000000~10FFFF。code
分类utf-8
utf-32:每一个字符都用四个字节存储,彻底对应编号。字符串
优势:查找快方法
缺点:费空间poi
utf-16:变长的存储方式,基本平面的(U+0000~U+FFFF)2个字节,辅助平面的(U+010000~U+10FFFF)4个字节。co
在基本平面中,U+D800~U+DBFF是空的,故能够用来标识并存储辅助平面的高10位,低10位在下一个字符的U+DC00~U+DFFF中。这样就将辅助平面的20位分别存放在两个16位的字符中了。字符
utf-8:变长的存储方式,1~4个字节不等。
ucs