golang内置类型有rune类型和byte类型。golang
rune类型的底层类型是int32类型,而byte类型的底层类型是int8类型,这决定了rune能比byte表达更多的数。数组
在unicode中,一个中文占两个字节,utf-8中一个中文占三个字节,golang默认的编码是utf-8编码,所以默认一个中文占三个字节,可是golang中的字符串底层其实是一个byte数组。所以可能会出现下面这种奇怪的状况编码
package main import ( "fmt" ) func main() { str := "世界" fmt.Println(len(str)) //6 }
咱们指望获得的结果应该是4,缘由是golang中的string底层是由一个byte数组实现的,而golang默认的编码是utf-8,所以在这里一个中文字符占3个字节,因此得到的长度是6,想要得到咱们想要的结果也很简单,golang中的unicode/utf8包提供了用utf-8获取长度的方法
spa
package main import ( "fmt" "unicode/utf8" ) func main() { str := "世界" fmt.Println(utf8.RuneCountInString(str))//2 }
结果是2code
上面说了byte类型其实是一个int8类型,int8适合表达ascii编码的字符,而int32能够表达更多的数,能够更容易的处理unicode字符,所以,咱们能够经过rune类型来处理unicode字符blog
package main import ( "fmt" ) func main() { str := "hello 世界" str2 := []rune(str) fmt.Println(len(str2)) //8 }
这里将会申请一块内存,而后将str的内容复制到这块内存,实际上这块内存是一个rune类型的切片,而str2拿到的是一个rune类型的切片的引用,咱们能够很容易的证实这是一个引用内存
package main
import (
"fmt"
)
func main() {
str := "hello 世界"
str2 := []rune(str)
t := str2
t[0] = 'w'
fmt.Println(string(str2)) //“wello 世界”
fmt.Println(string(str)) //“hello 世界”
}
经过把str2赋值给t,t上改变的数据,其实是改变的是t指向的rune切片,所以,str2也会跟着改变,而str不会改变。utf-8
对于字符串,看一下如何遍历吧,也许你会以为遍历垂手可得,然而刚接触golang的时候,若是这样遍历字符串,那么将是很是糟糕的ci
package main import ( "fmt" ) func main() { str := "hello 世界" for i := 0; i < len(str); i++ { fmt.Println(string(str[i])) } }
输出:unicode
h e l l o ä ¸ ç
如何解决这个问题呢?
第一个解决方法是用range循环
package main import ( "fmt" ) func main() { str := "hello 世界" for _, v := range str { fmt.Println(string(v)) } }
输出
h e l l o 世 界
缘由是range会隐式的unicode解码
第二个方法是将str 转换为rune类型的切片
package main import ( "fmt" ) func main() { str := "hello 世界" str2 := []rune(str) for i := 0; i < len(str2); i++ { fmt.Println(string(str2[i])) } }
输出
h e l l o 世 界
除开rune和byte底层的类型的区别,在使用上,rune能处理一切的字符,而byte仅仅局限在ascii