go的string，byte和rune类型

时间 2021-03-26

标签数组编码 spa code blog 字符串 string 字符编码栏目字符编码繁體版

原文原文链接

rune是int32的别名类型，一个值就表明一个Unicode字符。
byte是uint8的别名类型，一个值就是一个ASCII码值。
rune类型的值在底层都是由一个 UTF-8 编码值来表达的。数组

了解下什么是Unicode字符和ASCII码：
一、简单理解，咱们平时接触到的中英日文，或者复合字符，都是Unicode字符。好比，'G'、'o'、'爱'、'好'、'者'就是一个个Unicode字符。
二、字符在计算机中存储时须要使用二进制数来表示。因此人们定义了一张表，将咱们用到的字符用一个二进制数值表示。这就是ASCII码表的由来。ui

UTF-8 编码方案会把一个 Unicode 字符编码为一个长度在 1\~4 之内的字节序列。因此，一个rune类型值表明了1\~4个长度的byte数组。编码

案例：

spa

func main() {
    str := "Go爱好者"
    fmt.Printf("The string: %q\n", str)
    fmt.Printf("  => runes(char): %q\n", []rune(str))
    fmt.Printf("  => runes(hex): %x\n", []rune(str))
    fmt.Printf("  => bytes(hex): [% x]\n", []byte(str))
}

The string: "Go爱好者"
 => runes(char): ['G' 'o' '爱' '好' '者']
 => runes(hex): [47 6f 7231 597d 8005]
 => bytes(hex): [47 6f e7 88 b1 e5 a5 bd e8 80 85]

字符串值"Go爱好者"若是被转换为[]rune类型的值的话，其中的每个字符（不管是英文仍是中文）就都会独立成为一个rune类型的元素值。如打印出的第二行内容。
又因为，每一个rune类型的值在底层都是由一个 UTF-8 编码值来表达的，如第三行
把每一个字符的 UTF-8 编码值都拆成相应的字节序列，如第四行，由于一个中文字符的 UTF-8 编码值须要用三个字节来表达。code

总结：
一个string类型的值既能够被拆分为一个包含多个字符的序列，也能够被拆分为一个包含多个字节的序列。前者能够由一个以rune为元素类型的切片来表示，然后者则能够由一个以byte为元素类型的切片表明。blog