python与中文的那点事

时间 2019-12-10

标签 python 中文那点栏目 Python 繁體版

原文原文链接

目录python

python与中文的那点事

python与中文的那点事

在学习python的过程当中，发如今python2与python3中对中文的处理有所不一样，因此这篇文章就来探讨一下这些不一样函数

1. utf-8/gbk/unicode/ASCII

咱们都知道，在计算机内部全部的信息均可以被表示成二进制的字符串，每个二进制位有1和0两种状态，所以8位的二进制数能够表示256种状态，这也被称为字节(byte)，也就是一个字节能够表示能够用来表示256种不一样的状态，每个状态都对应一个符号；上个年代美国制定了一套字符编码，对应英文字母与二进制之间的关系，作了统一的规定。这被称为ASCII，一直沿用至今。

固然设计上存在不少的编码方式，同一个二进制也能够被解释成不一样的符号，所以想要打开一个文件就必需要知道它的编码方式，不然用错误的编码方式进行读取，就会产生乱码。因此说若是有一种编码，能适应世界上全部的编码规则，那么就能够解决掉全部的乱码问题。因此Unicode这套编码规则就被设计出来了，Unicode固然是一个很大的合集，能够容纳100多万个符号，每一个符号的编码都不同，可是要注意到的是，Unicode只是一个符号集，他并无规定这个二进制如何去存储，因此有些字符是用2个字节存储，有的是三个或者四个字节进行存储，甚至更多。那么这样的话就会有一个问题，就是计算机应该如何肯定究竟是三位字节决定一个符号，仍是两字节决定一个符号。这样形成的结果就是会产生多种的Unicode编码方式，也就是说有不一样的二进制格式，因此不能进行有效的推广。

随着互联网的普及，须要一种可以统一的编码方式，utf-8就是在互联网上是用最广的一种Unicode实现的方法，其余方法还有UFT-18和UTF-32，不过如今在互联网上基本不是很通用，因此要强调的是UTF-8是Unicode的一种实现方式。UTF-8最大的一个特色就是它是一种变长的编码模式；它能够用1~4个字节表示一个符号，根据不一样的符号而变化字节长度。

另外，UTF-8是Unix下的通用编码，能够对汉字进行编码；gbk是win环境下的一种汉字编码格式。全部的UTF-8和gbk编码都得经过Unicode编码进行转换，而UTF-8和gbk之间不能相互转换，要在Unicode过个场。学习

在下面代码中：测试

# -*- coding:utf-8 -*-
s='汉字'
print(s)

s是一串utf-8编码的汉字，在print的时候，先把utf-8转化成unicode再输出成正产显示的汉字。编码

2.各类编码之间的转换

python中有两个很好用的函数decode()和encode()。
decode('utf-8') 是从utf-8编码转换成unicode编码，固然括号里也能够写'gbk'。
encode('gbk') 是将unicode编码编译成gbk编码，固然括号里也能够写'utf-8'。
假如我知道一串编码是用gbk编写的，怎么转成utf-8呢?设计

s.decode('utf-8').encode('gbk')

那么这样就有一个有意思的小问题，如何看一个汉字分别用utf-8和gbk编码所用的位数，咱们用代码演示一下：code

#python3 中能够直接进行编码
>>> len("测试代码".encode("utf-8"))
12
>>> len("测试代码".encode("gbk"))
8
#由于在Python3中默认就是unicode编码

#python2中须要先decode 一次
>>> len("测试代码".decode("utf-8").encode("utf-8"))
12
>>> len("测试代码".decode("utf-8").encode("gbk"))
8

Python3.0中默认的编码类型就是Unicode了，在python2.x中默认编码是ascill。blog

3. 统计字符串中数字,字母,汉字的个数

#re模块,实现正则匹配
import re

str_test = 'asdfghjkl123456测试代码'
num_regex = re.compile(r'[0-9]')
alphabet_regex = re.compile(r'[a-zA-z]')
chzn_regex = re.compile(r'[\u4E00-\u9FA5]')

print('输入字符串:',str_test)
#findall获取字符串中全部匹配的字符
num_list = num_regex.findall(str_test)
print('包含的数字:',num_list)
alphabet_list = alphabet_regex.findall(str_test)
print('包含的字母:',alphabet_list)
chzn_list = chzn_regex.findall(str_test)
print('包含的汉字:',chzn_list)
print('数字个数：',len(num_list))
print('字母个数：',len(alphabet_list))
print('汉字个数：',len(chzn_list))

输出结果：utf-8

输入字符串: asdfghjkl123456测试代码
包含的数字: ['1', '2', '3', '4', '5', '6']
包含的字母: ['a', 's', 'd', 'f', 'g', 'h', 'j', 'k', 'l']
包含的汉字: ['测', '试', '代', '码']
数字个数： 6
字母个数： 9
汉字个数： 4