python3的encode()和decode()

时间 2019-11-08
标签 python3 python encode decode 栏目 Python 繁體版
原文原文链接
python3的encode()和decode()
    在python3的内存中. 在程序运行阶段. 使⽤用的是unicode编码. 
    由于unicode是万国码. 什么内容均可以进行显示. 那么在数据传输和存储的时候因为unicode比较浪费空间和资源. 
    须要把unicode转存成UTF-8或者GBK进行存储. 怎么转换呢. 
    在python中能够把⽂字信息进行编码. 编码以后的内容就能够进行传输了了. 
    编码以后的数据是bytes类型的数据.其实啊.仍是原来的数据只是通过编码以后表现形式发生了改变而已.

    bytes 的表现形式
        1.英文 b'nihao'英文的表现形式和字符串没什么两样
        2.中文 b'\xc4\xe3\xba\xc3'这是一个汉子‘你好’的utf-8的bytes表现形式


    字符串在传输时转化为bytes->encode(字符集)来实现。
    英⽂编码以后的结果和源字符串一致. 
    中文编码以后的结果根据编码的不一样. 编码结果 也不一样. 
    咱们知道.一个中⽂的UTF-8编码是3个字节. 一个GBK的中文编码是2个字节. 
    编码以后的类型就是bytes类型. 在网络传输和存储的时候咱们python是保存和存储的bytes
    类型. 那么在对方接收的时候. 也是接收的bytes类型的数据. 
    咱们能够使⽤用decode()来进行解码操做. ->把bytes类型的数据还原回咱们熟悉的字符串。

    例子：编码和解码的时候都须要制定编码格式.

            s = "我是文字"
            bs = s.encode("GBK") # 咱们这样能够获取到GBK的⽂字 
            # 把GBK转换成UTF-8
            # ⾸首先要把GBK转换成unicode. 也就是须要解码
            s = bs.decode("GBK") # 解码
            # 而后须要进行从新编码成UTF-8
            bss = s.encode("UTF-8") # 从新编码
            print(bss)