Python开发中经常使用的标准库

时间 2019-11-07

原文原文链接

大多数基于 Python 开发的应用程序都会用到本地标准库和三方库，这样不只能让咱们把时间去关注真正的业务开发，也能学习到更多价值含量高的程序设计和开发思想。程序开发中有一句著名的话叫作：html

Don’t re-invent the wheel (不重复发明轮子)python

言简意骇表达了不要作重复的事情。既然有人帮你完成了须要作的事情，那么你就应该在合理适用的状况下利用它，从而避免形成没必要要的时间浪费。程序员

Python 库能够分为两大类，一类是标准库，一类是三方库。标准库大都是下载对应 Python 版本时文件内置的，在程序中可直接调用且不须要用 pip 包管理工具从互联网上下载。而三方库则是其余程序员为了更好的实现某种目标，在实际开发中逐渐衍生出来的函数库或副产品，而后将其放在互联网上咱们共享。正则表达式

不管是标准库仍是三方库，对于咱们来讲都有学习价值。下面列举一些实际开发中可能会用到标准库（三方库下篇），以此来加深印象。算法

标准库

sys

系统相关的参数和函数。sys 库通常用来访问和修改系统相关信息，好比查看 python 版本、系统环境变量、模块信息和 python 解释器相关信息等等。数据库

os

操做系统接口模块。这个库提供了访问操做系统相关依赖的方式，好比输入输出操做、读写操做、操做系统异常错误信息、进程线程管理、文件管理、调度程序等等。json

re

正则表达式操做。这个库是我喜欢而且常常会用到的库，在对大量字符串进行处理的时候用正则表达式是最快速有效的方式，可是正则表达式的学习曲线较高，有兴趣的朋友能够访问这个网站学习。后端

math

数学函数库。math 库提供了对 C 语言标准定义的数学函数访问，好比数论（Number-theoretic）的各类表示方法、幂和对数函数（Power and logarithmic functions）、三角函数（Trigonometric functions）、常量圆周率（π）和天然常数（e）等等。安全

random

生成伪随机数。服务器

伪随机数与随机数（真随机数）不一样的是执行环境，随机数是真实世界中经过物理过程实践得出结论，而伪随机数是经过计算机的特定算法生成的数，因此这个过程是可预测的、有规律的，只是循环周期较长，并不能与现实场景相切合。

random 库提供生成随机数，能够模拟现实世界中随机取数、随机抽奖等等。

logging

日志记录工具。这个库提供了对应用程序和库函数的日志记录，平常开发中咱们常常须要经过日志打印出当前程序的运行状态，实时查看可能出现的堆栈异常和错误信息。

默认日志打印级别（可自定义）：

级别	值
危急	50
错误	40
异常	30
信息	20
调试	10
未设置	0

json

Json 编码和解码器。json 库提供了对 json 数据的支持，平常开发中咱们作先后端分离须要对传输数据 json 进行序列化和反序列化操做，以保证对数据的完整性和有效性，而序列化和反序列化其实就是编码和解码的过程。

pickle

Python 对象序列化库。pickle 库支持对 python 对象进行序列化和反序列化操做，当咱们须要将处理好的对象保存到文件或数据库中时，就能够将其序列化成二进制数据，从而更好的保存起来。

socket

底层网络接口。socket（套接字） 库提供了标准的 BSD（伯克利套接字） Socket API，能够经过访问底层操做系统 Socket 的相关接口进行网络通信。

datetime

基本日期和时间类型库。该库提供了各类简单和复杂的方式处理日期和时间，平常咱们会用时间测算时间消耗、复杂度，对存储的建立时间和修改时间也须要进一步说明，对计时器的描述和控制也须要用到该库。

安全哈希和消息摘要。摘要算法其实就是对某些数据进行加密（不可逆的加密算法），由于被加密的数据没法破解，因此就能防止被篡改。常见的摘要算法有 MD五、SHA1，通常咱们会用 MD5 对用户口令进行加密，防止盗用后被轻易破解；而 SHA1 与 MD5 相似，可是 SHA1 会产生更长的长度，也更安全，可是算法的复杂性一般伴随着存储空间和时间的消耗。要说比SHA1更长的字符长度，还有 SHA22四、SHA25六、SHA384 和 SHA512，看名字就能知道。

你们都知道不管算法生成的字符长度如何都有可能发生碰撞（被破解），这是不可避免的，因此具体场景具体状况而定。

configparser

配置文件解析器。configparser 库能够轻松定制配置文件，经过解析配置文件的信息咱们就能够全局访问相关配置。

urllib

URL 处理模块。urllib 库集成了处理 URLs（统一资源定位符）的各类模块：

urllib.request 访问和读取URL数据
urllib.error 包含urllib.request抛出的异常
urllib.parse 解析URL数据
urllib.robotparser 解析robots.txt文件

urllib 库对访问网络有很好的支持，提供了对数据的访问和处理、文件的上传和下载、记录 cookie 和 session 等等。

itertools

为高效循环而建立迭代器的函数。itertools 库也是常常须要用到，当咱们要对某些数进行 for-in 时就须要先将其处理成一个可迭代对象，以后咱们才能进行遍历操做。

collections

容器数据类型库。collections 库提供了对全部容器数据类型的支持，包括 dict, list, set 和 tuple。咱们能够用此库对不一样数据类型进行操做，常有的函数方法有这些：

namedtuple() 建立命名元组子类的工厂函数
deque 相似列表(list)的容器，实现了在两端快速添加(append)和弹出(pop)
ChainMap 相似字典(dict)的容器类，将多个映射集合到一个视图里面
Counter 字典的子类，提供了可哈希对象的计数功能
OrderedDict 字典的子类，保存了他们被添加的顺序
defaultdict 字典的子类，提供了一个工厂函数，为字典查询提供一个默认值
UserDict 封装了字典对象，简化了字典子类化
UserList 封装了列表对象，简化了列表子类化
UserString 封装了列表对象，简化了字符串子类化

functools

高阶函数和可调用对象上的操做。该库主要调用高阶函数，是常规函数的一种补充。目前库中包含如下几种函数：

cmp_to_key
lru_cache
total_ordering
partial
partialmethod
reduce
singledispatch
update_wrapper
wraps

threading

线程并行库。threading 库支持线程和多线程的操做，针对多线程并发的问题能够给数据加同步锁，一次只能让一个线程处理数据，从而避免出现数据读写混乱。

在 CPython 解释器上，由于 GIL（全局解释器锁）锁机制的存在的，被设计成线程安全，因此同一时间只能执行一个线程，这就致使了多线程不能发挥出计算机的多核特性。

multiprocessing

进程并行库。multiprocessing 库与 threading 库很相似，不一样的是进程库能够建立子进程避开 GIL，从而弥补线程库存在的劣势和发挥计算机的多核特性。

timeit

测量小代码片断的执行时间。此库主要用来计算运行代码的时间消耗，支持多种方式传入参数。

atexit

退出处理器。当处理一个函数须要立马退出时可使用该库。

abc

抽象基类。abc 库定义抽象基类，以便其余类派生出新类。好比 collections 容器库中就有此派生出的 collections.abc 类，派生出来的类能够进一步实现。

asyncio

异步IO库。asyncio 库是一个用 async/await 关键字编写并发的库，为多个异步框架提供基础功能，可以实现高性能的网络、Web服务器、数据库链接和分布式任务队列等。

异步开发中asyncio库提供两类API，高阶API：

和低阶API：

base64

数据编码库。base64 库用于对原始二进制数据进行编码，从而方便数据能在互联网上传播。

例如，当咱们须要用 json 数据来传播一张图片时，就须要先对图片的二进制数据进行编码（json 不能携带二进制数据）后保存到 value 当中，当另外一方拿到 json 数据后就能够用同类的算法进行解码，从而获得二进制图片数据。

base64 库中提供多种编码算法，最著名的莫过于以他命名的 base64。base64 的编码方式是将二进制数据 000000 到 111111 的 64 种状态编码成 0-9 的数字、a-z、A-Z 字母以及 + 号和 / 号，以 6 位一组的方式进行编码。当二进制数据不足 6 位时会经过补位和标记的方式处理，具体看这里。

除 base64 外，base64 库还提供其余的编码算法，例如 base1六、base3二、ascii85 和 base85。须要注意的是，base64 严格意义上不能算是一种加密，而是编码转换，用于转换为可见字符串。

concurrent.futures

启动并行任务。concurrent.futures 库提供高层次的接口来实现异步调用，有两种方式，一种是为线程实现的 ThreadPoolExecutor，一种是为进程实现的 ProcessPoolExecutor，从名字能够看出，两则都是从 Executor 抽象类中实现而来。

copy

浅层和深层复制操做。copy 库提供对对象的拷贝，咱们都知道要制做对象副本，是没法经过简单值传递建立新变量的方式作到，由于新变量所指向的内存空间依旧是原对象自己，因此对新变量进行任何操做都会改变原对象。那么，copy 库就提供了制做对象副本的各类方法，会开辟一个新的内存空间存放副本对象，修改操做不会对原对象有任何干预。

csv

csv（Comma Separated Values）文件读写库。此库支持以纯文本的形式存储表格数据（数字和文本）。

operator

标准运算符替代函数库。此库是将 python 自有的运算符做为有效函数，好比表达式 x+y 能够用函数 operator.add(x, y) 表示；好比表达式 a*b 能够用函数 operator.mul(a, b) 表示，等等。

enum

枚举库。enum 库支持建立枚举类来存储大量同类型的不可变常量，以便其余函数调用。建立出来的枚举类是可迭代对象，因此能够用 for-in 枚举出全部常量。

heapq

堆队列算法。这个模块提供了堆队列算法的实现，也称为优先队列算法。优先队列中的每一个元素都有各自的优先级，优先级最高的元素最早获得服务。因此当咱们要求前n最大/最小值的时候就能够用此算法来实现，heapq 库中也提供了相应函数实现。

http

HTTP 模块。http 模块是一个包，收集了多个处理超文本传输协议的模块：

http.client 低层级的 HTTP 协议客户端，高层级的 URL 访问使用 urllib.request
http.server 基于 socketserver 的基本 HTTP 服务类
http.cookies cookies 状态管理工具
http.cookiejar 提供了 cookies 的持久化

http 模块经过 http.HTTPStatus 枚举定义了 HTTP状态码以及相关联消息。

profile、pstats

性能分析工具。profile 模块提供了 profile 和 cProfile 两种不一样实现的性能分析工具，可用来描述程序各个部分的执行时间和频率，统计后的信息能够经过 pstats 模块保存并使用。

ssl

TLS/SSL（传输安全协议）。此模块提供对安全协议的支持，经过应用上下文，可将 TLS（传输层安全性协议）或其前身 SSL（安全套接层）支持安全协议，能为互联网通讯提供安全和数据完整性保障。通常 HTTPS 协议都支持 TLS/SSL 加密。

unitest

单元测试框架。unitest 库经常使用于单元测试，受到 JUnit 和其余主流测试库的启发，unitest 库的功能和函数与它们有着类似的风格。

uuid

UUID库。uuid 库主要用途是生成随机字符串，库中有多个版本的 UUID 对象方法，好比版本一、三、4 和 5 的 uuid1()、uuid3()、uuid4() 和 uuid5()。须要注意的是，若是要生成随机字符串，可使用 uuid1() 和 uuid4()，可是 uuid1() 会存在隐私风险，由于生成的原理里边包含用户访问计算机的网络地址，而 uuid4() 是经过随机字符生成。

uuid1() 的生成方式也未必是安全的，当两个进程同时处理时由于没有同步锁的存在，因此没办法保证不会生成两个相同的 UUID。

总结

标准库是语言包中默认存在的，虽然大多数基础功能已经实现，也就意味着咱们不须要重复造轮子，可是咱们仍是须要花些时间去关注和了解其中程序设计的思惟，学习开源大牛们是如何将地基打坚固，为咱们即将开发的上层应用创建基础。

注：

文章持续更新，欢迎提供更多有价值的标准库。
Python3 的中文wiki 和英文wiki 。