golang —rune与byte-IT技术资讯

golang内置类型有rune类型和byte类型。

rune类型的底层类型是int32类型，而byte类型的底层类型是int8类型，这决定了rune能比byte表达更多的数。

在unicode中，一个中文占两个字节，utf-8中一个中文占三个字节，golang默认的编码是utf-8编码，因此默认一个中文占三个字节，但是golang中的字符串底层实际上是一个byte数组。因此可能会出现下面这种奇怪的情况

golang中存在丰富的类型，其中一部分类型如byte、rune等是基于底层的整形等基础类型实现的，熟悉类型对应的基础类型能够帮助我们了解一些coding中的小技巧，可以基于类型的基础类型直接使用。首先了解一下一些内建类型对应的基础类型，这些都可以在源码中 builtin.go 中找到：

// byte is an alias for uint8 and is equivalent to uint8 in all ways. It is
// used, by convention, to distinguish byte values from 8-bit unsigned
// integer values.
type byte = uint8

// rune is an alias for int32 and is equivalent to int32 in all ways. It is
// used, by convention, to distinguish character values from integer values.
type rune = int32

package main
import (
    "fmt"
)
func main() {
    str := "世界"
    fmt.Println(len(str)) //6
}

我们期望得到的结果应该是4，原因是golang中的string底层是由一个byte数组实现的，而golang默认的编码是utf-8，因此在这里一个中文字符占3个字节，所以获得的长度是6，想要获得我们想要的结果也很简单，golang中的unicode/utf8包提供了用utf-8获取长度的方法

package main
import (
    "fmt"
    "unicode/utf8"
)
func main() {
    str := "世界"
    fmt.Println(utf8.RuneCountInString(str))//2
}

结果是2

上面说了byte类型实际上是一个int8类型，int8适合表达ascii编码的字符，而int32可以表达更多的数，可以更容易的处理unicode字符，因此，我们可以通过rune类型来处理unicode字符

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    str2 := []rune(str)
    fmt.Println(len(str2)) //8
}

这里将会申请一块内存，然后将str的内容复制到这块内存，实际上这块内存是一个rune类型的切片，而str2拿到的是一个rune类型的切片的引用，我们可以很容易的证明这是一个引用

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    str2 := []rune(str)
    t := str2
    t[0] = 'w'
    fmt.Println(string(str2)) //“wello 世界”
    fmt.Println(string(str))  //“hello 世界”
}

通过把str2赋值给t，t上改变的数据，实际上是改变的是t指向的rune切片，因此，str2也会跟着改变，而str不会改变。

字符串的遍历

对于字符串，看一下如何遍历吧，也许你会觉得遍历轻而易举，然而刚接触golang的时候，如果这样遍历字符串，那么将是非常糟糕的

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    for i := 0; i < len(str); i++ {
        fmt.Println(string(str[i]))
    }
}

输出:

h
e
l
l
o
 
ä
¸

ç

如何解决这个问题呢？

第一个解决方法是用range循环

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    for _, v := range str {
        fmt.Println(string(v))
    }
}

输出

h
e
l
l
o
 
世
界

原因是range会隐式的unicode解码

第二个方法是将str 转换为rune类型的切片

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    str2 := []rune(str)
    for i := 0; i < len(str2); i++ {
        fmt.Println(string(str2[i]))
    }
}

输出

h
e
l
l
o
 
世
界

rune和byte的区别

除开rune和byte底层的类型的区别，在使用上，rune能处理一切的字符，而byte仅仅局限在ascii

golang ---rune与byte

字符串的遍历

rune和byte的区别

相关推荐

评论抢沙发

评论前必须登录！

随机推荐

分类

热门标签

最新文章

最新评论

其他操作2

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

QQ咨询

回顶部

字符串的遍历

rune和byte的区别

相关推荐

评论 抢沙发

评论前必须登录！

随机推荐

分类

热门标签

最新文章

最新评论

其他操作2

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

QQ咨询

回顶部

评论抢沙发