Unicode编码

  1. 简介编码

    Unicode编码是一种统一标识字符串的方法,即一个字符串对应一个编号(code point),表示为U+xxxx。其中xxxx为十六进制的编号,范围是000000~10FFFF。code

  2. 分类utf-8

    • utf-32:每一个字符都用四个字节存储,彻底对应编号。字符串

      优势:查找快方法

      缺点:费空间poi

    • utf-16:变长的存储方式,基本平面的(U+0000~U+FFFF)2个字节,辅助平面的(U+010000~U+10FFFF)4个字节。co

      在基本平面中,U+D800~U+DBFF是空的,故能够用来标识并存储辅助平面的高10位,低10位在下一个字符的U+DC00~U+DFFF中。这样就将辅助平面的20位分别存放在两个16位的字符中了。字符

    • utf-8:变长的存储方式,1~4个字节不等。

    • ucs

相关文章
相关标签/搜索