Python开发中经常使用的标准库

大多数基于 Python 开发的应用程序都会用到本地标准库和三方库,这样不只能让咱们把时间去关注真正的业务开发,也能学习到更多价值含量高的程序设计和开发思想。程序开发中有一句著名的话叫作:html

Don’t re-invent the wheel (不重复发明轮子)python

言简意骇表达了不要作重复的事情。既然有人帮你完成了须要作的事情,那么你就应该在合理适用的状况下利用它,从而避免形成没必要要的时间浪费。程序员

Python 库能够分为两大类,一类是标准库,一类是三方库。标准库大都是下载对应 Python 版本时文件内置的,在程序中可直接调用且不须要用 pip 包管理工具从互联网上下载。而三方库则是其余程序员为了更好的实现某种目标,在实际开发中逐渐衍生出来的函数库或副产品,而后将其放在互联网上咱们共享。正则表达式

不管是标准库仍是三方库,对于咱们来讲都有学习价值。下面列举一些实际开发中可能会用到标准库(三方库下篇),以此来加深印象。算法

标准库

sys

系统相关的参数和函数。sys 库通常用来访问和修改系统相关信息,好比查看 python 版本、系统环境变量、模块信息和 python 解释器相关信息等等。数据库

os

操做系统接口模块。这个库提供了访问操做系统相关依赖的方式,好比输入输出操做、读写操做、操做系统异常错误信息、进程线程管理、文件管理、调度程序等等。json

re

正则表达式操做。这个库是我喜欢而且常常会用到的库,在对大量字符串进行处理的时候用正则表达式是最快速有效的方式,可是正则表达式的学习曲线较高,有兴趣的朋友能够访问这个网站学习。后端

math

数学函数库。math 库提供了对 C 语言标准定义的数学函数访问,好比数论(Number-theoretic)的各类表示方法、幂和对数函数(Power and logarithmic functions)、三角函数(Trigonometric functions)、常量圆周率(π)和天然常数(e)等等。安全

random

生成伪随机数。服务器

伪随机数与随机数(真随机数)不一样的是执行环境,随机数是真实世界中经过物理过程实践得出结论,而伪随机数是经过计算机的特定算法生成的数,因此这个过程是可预测的、有规律的,只是循环周期较长,并不能与现实场景相切合。

random 库提供生成随机数,能够模拟现实世界中随机取数、随机抽奖等等。

logging

日志记录工具。这个库提供了对应用程序和库函数的日志记录,平常开发中咱们常常须要经过日志打印出当前程序的运行状态,实时查看可能出现的堆栈异常和错误信息。

默认日志打印级别(可自定义):

级别
危急 50
错误 40
异常 30
信息 20
调试 10
未设置 0

json

Json 编码和解码器。json 库提供了对 json 数据的支持,平常开发中咱们作先后端分离须要对传输数据 json 进行序列化和反序列化操做,以保证对数据的完整性和有效性,而序列化和反序列化其实就是编码和解码的过程。

pickle

Python 对象序列化库。pickle 库支持对 python 对象进行序列化和反序列化操做,当咱们须要将处理好的对象保存到文件或数据库中时,就能够将其序列化成二进制数据,从而更好的保存起来。

shelve

Python 对象持久化。简单的数据存储方案。

socket

底层网络接口。socket(套接字) 库提供了标准的 BSD(伯克利套接字) Socket API,能够经过访问底层操做系统 Socket 的相关接口进行网络通信。

datetime

基本日期和时间类型库。该库提供了各类简单和复杂的方式处理日期和时间,平常咱们会用时间测算时间消耗、复杂度,对存储的建立时间和修改时间也须要进一步说明,对计时器的描述和控制也须要用到该库。

hashlib

安全哈希和消息摘要。摘要算法 其实就是对某些数据进行加密(不可逆的加密算法),由于被加密的数据没法破解,因此就能防止被篡改。常见的摘要算法有 MD五、SHA1,通常咱们会用 MD5 对用户口令进行加密,防止盗用后被轻易破解;而 SHA1 与 MD5 相似,可是 SHA1 会产生更长的长度,也更安全,可是算法的复杂性一般伴随着存储空间和时间的消耗。要说比SHA1更长的字符长度,还有 SHA22四、SHA25六、SHA384 和 SHA512,看名字就能知道。

你们都知道不管算法生成的字符长度如何都有可能发生碰撞(被破解),这是不可避免的,因此具体场景具体状况而定。

configparser

配置文件解析器。configparser 库能够轻松定制配置文件,经过解析配置文件的信息咱们就能够全局访问相关配置。

urllib

URL 处理模块。urllib 库集成了处理 URLs(统一资源定位符)的各类模块:

  • urllib.request 访问和读取URL数据
  • urllib.error 包含urllib.request抛出的异常
  • urllib.parse 解析URL数据
  • urllib.robotparser 解析robots.txt文件

urllib 库对访问网络有很好的支持,提供了对数据的访问和处理、文件的上传和下载、记录 cookie 和 session 等等。

itertools

为高效循环而建立迭代器的函数。itertools 库也是常常须要用到,当咱们要对某些数进行 for-in 时就须要先将其处理成一个可迭代对象,以后咱们才能进行遍历操做。

collections

容器数据类型库。collections 库提供了对全部容器数据类型的支持,包括 dict, list, set 和 tuple。咱们能够用此库对不一样数据类型进行操做,常有的函数方法有这些:

  • namedtuple() 建立命名元组子类的工厂函数
  • deque 相似列表(list)的容器,实现了在两端快速添加(append)和弹出(pop)
  • ChainMap 相似字典(dict)的容器类,将多个映射集合到一个视图里面
  • Counter 字典的子类,提供了可哈希对象的计数功能
  • OrderedDict 字典的子类,保存了他们被添加的顺序
  • defaultdict 字典的子类,提供了一个工厂函数,为字典查询提供一个默认值
  • UserDict 封装了字典对象,简化了字典子类化
  • UserList 封装了列表对象,简化了列表子类化
  • UserString 封装了列表对象,简化了字符串子类化

functools

高阶函数和可调用对象上的操做。该库主要调用高阶函数,是常规函数的一种补充。目前库中包含如下几种函数:

  • cmp_to_key
  • lru_cache
  • total_ordering
  • partial
  • partialmethod
  • reduce
  • singledispatch
  • update_wrapper
  • wraps

threading

线程并行库。threading 库支持线程和多线程的操做,针对多线程并发的问题能够给数据加同步锁,一次只能让一个线程处理数据,从而避免出现数据读写混乱。

在 CPython 解释器上,由于 GIL(全局解释器锁)锁机制的存在的,被设计成线程安全,因此同一时间只能执行一个线程,这就致使了多线程不能发挥出计算机的多核特性。

multiprocessing

进程并行库。multiprocessing 库与 threading 库很相似,不一样的是进程库能够建立子进程避开 GIL,从而弥补线程库存在的劣势和发挥计算机的多核特性。

timeit

测量小代码片断的执行时间。此库主要用来计算运行代码的时间消耗,支持多种方式传入参数。

atexit

退出处理器。当处理一个函数须要立马退出时可使用该库。

abc

抽象基类。abc 库定义抽象基类,以便其余类派生出新类。好比 collections 容器库中就有此派生出的 collections.abc 类,派生出来的类能够进一步实现。

asyncio

异步IO库。asyncio 库是一个用 async/await 关键字编写并发的库,为多个异步框架提供基础功能,可以实现高性能的网络、Web服务器、数据库链接和分布式任务队列等。

异步开发中asyncio库提供两类API,高阶API:

和低阶API:

base64

数据编码库。base64 库用于对原始二进制数据进行编码,从而方便数据能在互联网上传播。

例如,当咱们须要用 json 数据来传播一张图片时,就须要先对图片的二进制数据进行编码(json 不能携带二进制数据)后保存到 value 当中,当另外一方拿到 json 数据后就能够用同类的算法进行解码,从而获得二进制图片数据。

base64 库中提供多种编码算法,最著名的莫过于以他命名的 base64。base64 的编码方式是将二进制数据 000000111111 的 64 种状态编码成 0-9 的数字、a-z、A-Z 字母以及 + 号和 / 号,以 6 位一组的方式进行编码。当二进制数据不足 6 位时会经过补位和标记的方式处理,具体看这里

除 base64 外,base64 库还提供其余的编码算法,例如 base1六、base3二、ascii85 和 base85。须要注意的是,base64 严格意义上不能算是一种加密,而是编码转换,用于转换为可见字符串。

concurrent.futures

启动并行任务。concurrent.futures 库提供高层次的接口来实现异步调用,有两种方式,一种是为线程实现的 ThreadPoolExecutor,一种是为进程实现的 ProcessPoolExecutor,从名字能够看出,两则都是从 Executor 抽象类中实现而来。

copy

浅层和深层复制操做。copy 库提供对对象的拷贝,咱们都知道要制做对象副本,是没法经过简单值传递建立新变量的方式作到,由于新变量所指向的内存空间依旧是原对象自己,因此对新变量进行任何操做都会改变原对象。那么,copy 库就提供了制做对象副本的各类方法,会开辟一个新的内存空间存放副本对象,修改操做不会对原对象有任何干预。

csv

csv(Comma Separated Values)文件读写库。此库支持以纯文本的形式存储表格数据(数字和文本)。

operator

标准运算符替代函数库。此库是将 python 自有的运算符做为有效函数,好比表达式 x+y 能够用函数 operator.add(x, y) 表示;好比表达式 a*b 能够用函数 operator.mul(a, b) 表示,等等。

enum

枚举库。enum 库支持建立枚举类来存储大量同类型的不可变常量,以便其余函数调用。建立出来的枚举类是可迭代对象,因此能够用 for-in 枚举出全部常量。

heapq

堆队列算法。这个模块提供了堆队列算法的实现,也称为 优先队列算法。优先队列中的每一个元素都有各自的优先级,优先级最高的元素最早获得服务。因此当咱们要求前n最大/最小值的时候就能够用此算法来实现,heapq 库中也提供了相应函数实现。

http

HTTP 模块。http 模块是一个包,收集了多个处理超文本传输协议的模块:

  • http.client 低层级的 HTTP 协议客户端,高层级的 URL 访问使用 urllib.request
  • http.server 基于 socketserver 的基本 HTTP 服务类
  • http.cookies cookies 状态管理工具
  • http.cookiejar 提供了 cookies 的持久化

http 模块经过 http.HTTPStatus 枚举定义了 HTTP状态码 以及相关联消息。

profile、pstats

性能分析工具。profile 模块提供了 profilecProfile 两种不一样实现的性能分析工具,可用来描述程序各个部分的执行时间和频率,统计后的信息能够经过 pstats 模块保存并使用。

ssl

TLS/SSL(传输安全协议)。此模块提供对安全协议的支持,经过应用上下文,可将 TLS(传输层安全性协议)或其前身 SSL(安全套接层)支持安全协议,能为互联网通讯提供安全和数据完整性保障。通常 HTTPS 协议都支持 TLS/SSL 加密。

unitest

单元测试框架。unitest 库经常使用于单元测试,受到 JUnit 和其余主流测试库的启发,unitest 库的功能和函数与它们有着类似的风格。

uuid

UUID库。uuid 库主要用途是生成随机字符串,库中有多个版本的 UUID 对象方法,好比版本 一、三、4 和 5 的 uuid1()uuid3()uuid4()uuid5()。须要注意的是,若是要生成随机字符串,可使用 uuid1()uuid4(),可是 uuid1() 会存在隐私风险,由于生成的原理里边包含用户访问计算机的网络地址,而 uuid4() 是经过随机字符生成。

uuid1() 的生成方式也未必是安全的,当两个进程同时处理时由于没有同步锁的存在,因此没办法保证不会生成两个相同的 UUID。

总结

标准库是语言包中默认存在的,虽然大多数基础功能已经实现,也就意味着咱们不须要重复造轮子,可是咱们仍是须要花些时间去关注和了解其中程序设计的思惟,学习开源大牛们是如何将地基打坚固,为咱们即将开发的上层应用创建基础。

注:

  • 文章持续更新,欢迎提供更多有价值的标准库。
  • Python3 的 中文wiki英文wiki
相关文章
相关标签/搜索