python 编码问题

时间 2019-12-05

标签 python 编码问题栏目 Python 繁體版

原文原文链接

全部语言的字符都用同一种字符集来表示. 就是unicode.
ASCII占一个字节
UTF-8是针对中文的字符，占2～4个字节html

python中的 str和unicode
str和unicode都是basestring的子类。严格意义上说，str实际上是字节串，它是unicode通过编码后的字节组成的序列。对UTF-8编码的str'汉'使用len()函数时，结果是3，由于实际上，UTF-8编码的'汉' == '\xE6\xB1\x89'。str调用encode()方法是错误的，对unicode调用decode()方法也是错误的。
字符编码声明源代码文件中，若是有用到非ASCII字符，则须要在文件头部进行字符编码的声明，以下： #-- coding: UTF-8 --
实际上Python只检查#、coding和编码字符串，其余的字符都是为了美观加上的.

摘自[http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html][1] [1]: http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.htmlpython