python-字符编码

时间 2019-12-12

标签 python 字符编码栏目 Python 繁體版

原文原文链接

1. 变量\字符编码
　　　Variables are used to store information to be referenced and manipulated in a computer program. They also provide a way of labeling data with a descriptive name, so our programs can be understood more clearly by the reader and ourselves. It is helpful to think of variables as containers that hold information. Their sole purpose is to label and store data in memory. This data can then be used throughout your program.
　　声明变量python

#_*_coding:utf-8_*_程序员

name = "alex li"ide

　　上述代码声明了一个变量，变量名为：name，变量name的值为：“alex li”
　　变量定义的规则：
　　　　• 变量名只能是字母、数字或下划线的任意组合
　　　　• 变量名的第一个字符不能是数字
　　　　• 如下关键字不能声明为变量名
　　　　　　['and', 'as', 'assert', 'break', 'class', 'continue', 'def', 'del', 'elif', 'else', 'except', 'exec', 'finally', 'for', 'from', 'global', 'if', 'import', 'in', 'is', 'lambda', 'not', 'or', 'pass', 'print', 'raise', 'return', 'try', 'while', 'with', 'yield']
　　变量的赋值：优化

name = "alex li"
name2 = name编码

print(name,name2)spa

name = "Jack"设计

print("What is the value of name2 now?")code

2. 字符编码
　　python解释器在加载 .py 文件中的代码时，会对内容进行编码（默认ascill）orm

　　ASCII（American Standard Code for Information Interchange，美国标准信息交换代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其余西欧语言，其最多只能用 8 位来表示（一个字节），即：2**8 = 256-1，因此，ASCII码最多只能表示 255 个符号。blog

　　关于中文

　　为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

　　GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

　　GB2312 支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。如今的PC平台必须支持GB18030，对嵌入式产品暂不做要求。因此手机、MP3通常只支持GB2312。

　　从ASCII、GB23十二、GBK 到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中老是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文能够统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB23十二、GBK到GB18030都属于双字节字符集 (DBCS)。

　　有的中文Windows的缺省内码仍是GBK，能够经过GB18030升级包升级到GB18030。不过GB18030相对GBK增长的字符，普通人是很难用到的，一般咱们仍是用GBK指代中文Windows内码。

　　显然ASCII码没法将世界上的各类文字和符号所有表示，因此，就须要新出一种能够表明全部字符和符号的编码，即：Unicode

　　Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每一个字符设定了统一而且惟一的二进制编码，规定虽有的字符和符号最少由 16 位来表示（2个字节），即：2 **16 = 65536，
　　注：此处说的的是最少2个字节，可能更多

　　UTF-8，是对Unicode编码的压缩和优化，他再也不使用最少使用2个字节，而是将全部的字符和符号进行分类：ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存，东亚的字符用3个字节保存...

　　因此，python解释器在加载 .py 文件中的代码时，会对内容进行编码（默认ascill），若是是以下代码的话：

　　报错：ascii码没法表示中文

#!/usr/bin/env python
# Author:shichao
# File: .py

print "你好，世界"

　　改正：应该显示的告诉python解释器，用什么编码来执行源代码，即：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Author:shichao
# File: .py

print ("你好,世界")

　　注释：

当行注释：# 被注释内容多行注释：""" 被注释内容 """