关于python2中的unicode和str以及python3中的str和bytes

时间 2019-11-15

标签关于 python2 python unicode str 以及 python3 bytes 栏目 Python 繁體版

原文原文链接

python3有两种表示字符序列的类型：bytes和str。前者的实例包含原始的8位值；后者的实例包含Unicode字符。python

python2中也有两种表示字符序列的类型，分别叫作str和unicode。与python3不一样的是，str的实例包含原始的8位值，而unicode的实例，则包含Unicode字符。数组

上面两句话我特别不懂，因此文章后面就下是但愿为了把上面两句话弄懂。编码

看几个例子：spa

#在python2中
>>> type('x'.decode('utf-8'))
<type 'unicode'>   #为啥不是二进制了，字符串还能解码？再怎么解


#在python3中
>>> type('x'.decode('utf-8'))   #这才是正常的吗！
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'str' object has no attribute 'decode'  #字符串怎么解，原本就没有吗

首先这个就是Python语言自己的问题，由于在Python2的语法中，默认的str并非真正意义上咱们理解的字符串，而是一个byte数组，或者能够理解成一个纯ascii码字符组成的字符串，与python3中的bytes类型的变量对应，而真正意义上通用的字符串则是unicode类型的变量，它与Python3中的str变量对应原本应该用做byte数组的类型却用来作字符串，你说乱不乱，之因此这样作是为了与以前的程序保持兼容。3d

在Python2中，做为两种类型的字符序列，str与unicode须要转换，它们是这样转换的.code

str——decode方法——》unicode——encode方法——》strblog

在python3中能够这样对应这转换，配合上面的图，也许会好理解一点。utf-8

byte——decode（解码）方法——》str——>encode（编码）方法——》byteci

#在python2中
>>> type('x')
<type 'str'>                            

>>> type('x'.decode('utf-8'))
<type 'unicode'>

>>> type(u'x'.encode('utf-8'))
<type 'str'>

#在python3中
>>> type(x)                                       
<class 'str'>

>>> type(b'x')
<class 'bytes'>>>> type(b'x'.decode('utf-8'))
<class 'str'>

>>> type('x'.encode('utf-8'))
<class 'bytes'>unicode

还有就是隐式的转换，当一个unicode字符串和一个str字符串进行链接的时候，会自动将str字符串转换成unicode类型而后再链接，而这个时候使用的编码方式则是系统所默认的编码方式。python2默认的是ASCII，python3默认的是utf-8。

#在python2中
>>> x = u'喵'
>>> x
u'\u55b5'  
>>> type(x)
<type 'unicode'>



#在python3中
>>> x = u'喵'
>>> x
'喵'   
>>> type(x)
<class 'str'>

#为啥结果不同