Python中的文本和字节序列

时间 2019-12-06

标签 python 文本字节序列栏目 Python 繁體版

原文原文链接

导语：本文章记录了本人在学习Python基础之数据结构篇的重点知识及我的心得，打算入门Python的朋友们能够来一块儿学习并交流。

本章重点：html

一、了解字符字节等概念，编解码问题；
二、熟悉字符的规范化处理和双模式API。

1、基本概念

Unicode
Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每一个字符设定了统一而且惟一的二进制编码，以知足跨语言、跨平台进行文本转换、处理的要求。
位
来自英文bit，音译为“比特”，表示二进制位。位是计算机内部数据储存的最小单位，11010100是一个8位二进制数。一个二进制位只能够表示0和1两种状态（21）；两个二进制位能够表示00、0一、十、11四种（22）状态；三位二进制数可表示八种状态（23）。
字节
字节是计算机中数据处理的基本单位。计算机中以字节为单位存储和解释信息，规定一个字节由八个二进制位构成，即1个字节等于8个比特（1Byte=8bit）。八位二进制数最小为00000000，最大为11111111；一般1个字节能够存入一个ASCII码，2个字节能够存放一个汉字国标码。
字
计算机进行数据处理时，一次存取、加工和传送的数据长度称为字（word）。一个字一般由一个或多个（通常是字节的整数位）字节构成。例如286微机的字由2个字节组成，它的字长为16；486微机的字由4个字节组成，它的字长为32位机。
字长
字长是指cpu的每一个字所包含的位数。根据计算机的不一样，字长有固定的和可变的两种。固定字长，即字长度不论什么状况都是固定不变的；可变字长，则在必定范围内，其长度是可变的。计算的字长是指它一次可处理的二进创数字的数目。计算机处理数据的速率，天然和它一次能加工的位数以及进行运算的快慢有关。若是一台计算机的字长是另外一台计算机的两倍，即便两台计算机的速度相同，在相同的时间内，前者能作的工做是后者的两倍。
码位
又称字符的标识。在Unicode标准中以4~6个十六进制数字表示，并加前缀“U+”。例如字母A的码位是U+0041
编码
把码位转换成字节序列，调用s.encode()
解码
把字节序列转换成码位，调用s.decode()

编解码例子：python

s="São Paulo"
a=s.encode('utf8')
print(a)#b'S\xc3\xa3o Paulo'
b=a.decode("utf8")
print(b)
output:São Paulo

2、编解码问题

一、编解码器

latin1（即 iso8859_1）
一种重要的编码，是其余编码的基础。 例如 cp1252 和Unicode（注意， latin1 与 cp1252 的字节值是同样的，甚至连码位也相同）。
cp1252
Microsoft 制定的 latin1 超集，添加了有用的符号，例如弯引号和€（欧元）；有些 Windows 应用把它称为“ANSI”，但它并非 ANSI 标准。
cp437
IBM PC 最初的字符集，包含框图符号。与后来出现的 latin1 不兼容。
gb2312
用于编码简体中文的陈旧标准；这是亚洲语言中使用较普遍的多字节编码之一。
utf-8
目前 Web 中最多见的 8 位编码；与 ASCII 兼容（纯 ASCII 文本是有效的 UTF-8 文本）。
utf-16le
UTF-16 的 16 位编码方案的一种形式；全部 UTF-16 支持经过转义序列（称为“代理对”， surrogate pair）表示超过 U+FFFF 的码位。

二、了解编解码问题

了解有关Unicode错误的处理方法。正则表达式

2.1 UnicodeEncodeError

编码出现的错误在于编码器可能没法对字符串编码，以中英文字符串为例：编程

city="DaLian大连"
print(city.encode("utf8"))#b'DaLian\xe5\xa4\xa7\xe8\xbf\x9e'
print(city.encode("iso8859_1"))

输出报错：网络

Traceback (most recent call last):
  File "D:\韩文承\编程工做空间\Fluent Python\section4-1.py", line 10, in <module>
    print(city.encode("iso8859_1"))
UnicodeEncodeError: 'latin-1' codec can't encode characters in position 6-7: ordinal not in range(256)

缘由在于这个latin1不会对中午编码，因此咱们须要处理这个EncodeError,处理以下：数据结构

print(city.encode("iso8859_1",errors="ignore"))#b'DaLian'
print(city.encode("iso8859_1",errors="replace"))#b'DaLian??'
print(city.encode("iso8859_1",errors="xmlcharrefreplace"))#b'DaLian&#22823;&#36830;'

errors="ignore"
跳过没法编码的字符，这样作一般不妥。
errors="replace"
用问号替代没法编码的字符，虽然损坏了数据，但用户收到了编码有问题的信号。
errors="xmlcharrefreplace"
用xml实体代替没法编码的字符。

想了解更多错误处理方式可查阅Python官方Library：
https://docs.python.org/3/lib...编辑器

2.2 UnicodeDecodeError

解码出现的错误在于陈旧的解码器能解码任何字节序列而不抛出错误，有时会解码出无用的、乱码的字符。以包含变音符号的字节序列为例：函数

c=b"Montr\xe9al"
print(c.decode("iso8859_1"))#Montréal
print(c.decode("cp1252"))#Montréal
print(c.decode("cp437"))#MontrΘal 输出已经有问题了
print(c.decode("koi8_r"))#MontrИal KOI8_R是编码俄文的，此处输出了俄文字母
print(c.decode("utf8"))

报错：学习

Traceback (most recent call last):
  File "D:\韩文承\编程工做空间\Fluent Python\section4-1.py", line 19, in <module>
    print(c.decode("utf8"))
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 5: invalid continuation byte

缘由在于utf_8检测到c不是有效utf_8字符串，抛出UnicodeDecodeError。处理以下：网站

print(c.decode("utf8",errors="replace"))#Montr�al。用�替代没法解码的字节

2.3 SyntaxError

若是加载的模块中包含utf_8以外的数据，那么解释器会报错SyntaxError。

三、Chardet

Chardet是Python的一个库，能够检测出未知字节序列的编码方式。
不要在二进制模式中打开文本文件。即便想判断编码，也该用Chardet！

四、BOM（byte-order mark)

字节序标记，这个标记针对非单字节非字符串外的其他数据（如short，int）指明字节存储的方式，具体分为大端存储和小端存储。
大端存储第一个字节是高位，容易判断数值的正负；
小端存储第一个字节是地位，容易进行数值的运算。
须要注意：TCP/IP协议规定网络字节序为大端字节序。这意味着主机字节序若是是小端存储必须转化为大端字节序才能经过网络发送数据。
To Learn More：https://zhuanlan.zhihu.com/p/...

3、文本处理

一、处理文本文件

编码默认值
在多系统处理文件时应显式制定编码，不然容易出现默认编码器没法解码字节序列的状况。
编辑器默认编码查询：locale.getpreferredencoding()#cp936

Unicode三明治原则
咱们能够用一个简单的原则处理编码问题： 字节序列->字符串->字节序列。就是说程序中应当仅处理字符串，当须要保存到文件系统或者传输的时候，编码为字节序列。

二、规范化处理

Unicode字符串规范化
码位规范化函数：unicodedata.normalize(格式，字符串）
格式参数：

NFC：使用最少的码位构造等价字符串
NFD ：使用基字符和组合字符构造等价字符串
NFKC 和NFKD：将兼容字符分解

对大多数应用来讲NFC是最好的规范化形式。

from unicodedata import normalize
d="café"
e="cafe\u0301"
print(normalize("NFC",d)==normalize("NFC",e))#True
print(normalize("NFD",d)==normalize("NFD",e))#True

规范化以后两个不一样的码位相等的。
保存文件以前最好用规范化函数unicodedata.normalize(“NFC”，字符串）清洗字符串

大小写折叠函数：str.casefold()
自Python3.4起，str.lower()和str.casefold()不一样的结果有116个码位，占Unicode命名的总字符的0.11%

三、文本排序

Unicode 排序：unicode collation algorithm, UCA 使用 PyUCA 库。
下载地址：https://pypi.python.org/pypi/...

4、双模式API

双模式是指标准库中一些函数可以接受字符串或字节序列为参数，并根据类型进行处理。
API（Application Programming Interface）即应用程序接口。能够把 API 理解为一个软件组件或是一个 Web 服务与外界进行的交互的接口。通俗的理解是程序和程序之间的交互，交互就是传递数据，触发功能。

一、re模块:构建正则表达式处理字符串。

正则表达式：能够匹配文本片断的模式。

1.1语法介绍：

通配符：

.点dot：可以匹配任意的字符。
^尖号：从开始匹配，意味着开始的字符必须和partern一致方可匹配上，不然匹配返回none.。
$美圆符号：从尾部开始匹配，尾部开始的字符必须和partern一致方可匹配上，不然匹配返回none.。
*星号：容许模式重复0次或屡次。
+加号：容许模式重复1次或屡次。
？问号：容许模式重复0次或1次。
{m,n}:容许模式重复m~n次。（贪婪匹配下直接匹配到n次）当m=n即为{m}，只匹配m次。

用反斜线对特殊符号进行转义：
有时咱们只想用特殊符号如dot“."的字面意思，而非做为通配符使用。例如匹配网站”baidu.com“中的点就须要转义，变成"baidu\.com"，即只匹配”baidu.com“
字符集：
表示欲匹配字符的集合，相比较通配符中的点号而言范围更小一些。例如[0-9A-F]能够匹配一个十六进制的字符。
注意：一个字符集只能匹配一个字符，除非配合数量限定符使用！
预约义字符集

d，数字[0-9]
D，非数字[^\d]
s，空白字符,包括空格，trnfv
S，非空白字符[^\s]
w，单词字符[A-Za-z0-9_]
W，非单词字符[^\w]

选择符和子模式：
此项欲匹配的范围比字符集还要小。好比你只想匹配python和people这两个单词，就能够用管道符号（|），即“python|people"。
若是操做的不是整个模式partern而是模式的一部分，圆括号括起来的部分称做子模式，即“p(ython|eople)”

1.2重要的函数：

函数	描述
re.compile(pattern, flags=0)	根据正则表达式的字符串建立模式对象
re.search(pattern, string, flags=0)	在字符串中寻找模式
re.match(pattern, string, flags=0)	在字符串的开始处匹配模式
re.split(pattern, string, maxsplit=0, flags=0)	根据模式的匹配项来分割字符串
re.findall(pattern, string, flags=0)	列出字符串中模式的全部匹配项
re.finditer(pattern, string, flags=0)	返回一个迭代器，其中包含知足正则表达式要求的match objects
re.sub(pattern, repl, string, count=0, flags=0)	将字符串中全部pat的匹配项用repl替换

re.escape(pattern) 将字符串中全部特殊正则表达式字符转义
Tips:re.compile构建模式，对于重复式的匹配效率更高。
flags参数介绍：

re.I 或re.IGNORECASE
使匹配忽略字母大小写。
re.L或re.LOCALE
影响 “w, “W, “b, 和 “B，这取决于当前的本地化设置。
re.M或re.MULTILINE
使用本标志后，‘^’和‘$’匹配行首和行尾时，会增长换行符以前和以后的位置。
re.S或re.DOTALL
使点号这个特殊字符彻底匹配任何字符，包括换行；没有这个标志， “.” 匹配除了换行符外的任何字符。
re.X或re.VERBOSE
当该标志被指定时，在 RE 字符串中的空白符被忽略，除非该空白符在字符类中或在反斜杠以后。它也能够容许你将注释写入 RE，这些注释会被引擎忽略；注释用 “#”号来标识，不过该符号不能在字符串或反斜杠以后。

1.3MatchObject对象

MatchObject是一次成功匹配后返回的对象类型，它支持以下的重要方法：

group([group1, …]):
得到一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可使用编号也可使用别名；编号0表明整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了屡次的组返回最后一次截获的子串。
groups():
以元组形式返回所有分组截获的字符串。至关于调用group(1,2,…last)。
start([group]):
返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。
end([group]):
返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
span([group]):
返回(start(group), end(group))。

1.4贪婪和非贪婪模式

*和+这类数量限定符默认是贪婪的，即尽量多的匹配知足要求的字符串。只有在其后加上问号？方可变成非贪婪的。
贪婪与非贪婪eg:

import re 
greedy=re.compile(r"<.*>")#贪婪
non_greedy=re.compile(r"<.*?>")#非贪婪，利用问号限制
print(greedy.search("<H1>Chapter 1 - 介绍正则表达式</H1>"))
print(non_greedy.search("<H1>Chapter 1 - 介绍正则表达式</H1>"))

输出：

<_sre.SRE_Match object; span=(0, 28), match='<H1>Chapter 1 - 介绍正则表达式</H1>'>
<_sre.SRE_Match object; span=(0, 4), match='<H1>'>

对字符串和字节序列进行re匹配：

import re 
text_str = "Ramanujan saw \u0be7\u0bed\u0be8\u0bef as 1729 = 1³ + 12³ = 9³ + 10³."
text_byte=text_str.encode('utf_8')

str_number=re.compile(r"\d+")
str_word=re.compile(r"\w+")
byte_number=re.compile(rb"\d+")
byte_word=re.compile(rb"\w+")

print("str_number",str_number.findall(text_str))
print("str_word",str_word.findall(text_str))
print("byte_number",byte_number.findall(text_byte))
print("byte_word",byte_word.findall(text_byte))

输出：

str_number ['௧௭௨௯', '1729', '1', '12', '9', '10']
byte_number [b'1729', b'1', b'12', b'9', b'10']
str_word ['Ramanujan', 'saw', '௧௭௨௯', 'as', '1729', '1³', '12³', '9³', '10³']
byte_word [b'Ramanujan', b'saw', b'as', b'1729', b'1', b'12', b'9', b'10']

分析：经过分别对字符串和字节序列进行数字、单词字符的匹配操做，容易发现对字节序列的匹配仅限于ASCII中的数字和单词字符，而对字符串的匹配会包含更多的泰米尔数字和上标等其余字符。
To Learn More: https://docs.python.org/3/lib...

二、os模块:

os.listdir() :

用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。

os.fsencode(filename):

若是 filename 是 str 类型或bytes 类型，使用sys.getfilesystemencoding() 返回的编解码器把 filename 编码成字节序列；不然，返回未经修改的 filename 字节序列。

os.fsdecode(filename):

若是 filename 是 bytes 类型或 str 类型，使用sys.getfilesystemencoding() 返回的编解码器把 filename 解码成字符串；不然，返回未经修改的 filename 字符串。