Python迭代和解析(1)：列表解析

时间 2019-11-06

原文原文链接

解析、迭代和生成系列文章：http://www.javashuo.com/article/p-aspbesnv-du.htmlhtml

Python中的解析

Python支持各类解析(comprehension)操做，好比列表解析、集合解析、元组解析、字典解析。它们根据某些元素来建立(推导)出一个新的列表、集合、元组、字典等。因此有的地方也称为推导，好比列表推导、集合推导等。python

下面是一个列表解析的示例：git

>>> [ i*2 for i in range(10) if i % 2 == 0 ]
[0, 4, 8, 12, 16]

这里是列表解析，由于使用的中括号[ xxxx ]，它表示根据条件推导出一个新的列表。Python中几种内置类型的解析规则为：编程

若是使用的是中括号，表示列表解析
若是使用的是大括号，表示集合解析
若是使用的是大括号，且里面的元素是key:value模式，表示字典解析

注意：若是使用的是括号，表示的是生成器表达式，而不是解析。app

例如：函数

# 集合解析
>>> { i*2 for i in "abcd"}
{'aa', 'cc', 'dd', 'bb'}

# 字典解析
>>> { k:v for k,v in zip(("one","two","three"),(1,2,3)) }
{'one': 1, 'two': 2, 'three': 3}
>>> { k: k*2 for k in "abcd" }
{'a': 'aa', 'b': 'bb', 'c': 'cc', 'd': 'dd'}

Python中还有其它解析模式，稍后会解释。工具

数学概念中的解析

参考：https://en.wikipedia.org/wiki/List_comprehension3d

计算机语言中的解析来自于数学概念中的集合描述(对应于集合解析)。以下图：code

将此与下面的列表解析进行对应：htm

[ i * 2 for i in range(10) if i % 2 == 0 ]

其中：

x ∈ N表示的是装元素的容器，这个容器里的元素是解析时被迭代的对象
- 这对应于列表解析中的range(10)，对于Python来讲，只要是可迭代的数据对象，均可以做为元素的提供容器
x是变量，是容器中的元素
- 对应于列表解析中的i
x² > 3表示的是谓词，是可选的条件判断式，用来筛选解析过程当中的符合条件的元素
- 这对应于列表解析中的if i % 2 == 0，注意，谓词部分是可选的
2 * x表示的是外部表达式，用来生成新的列表/集合/字典/元组中的元素
- 对应于列表解析中的i * 2
{}意味着外部表达式的元素所存放的容器是集合容器
- 对应于列表解析中的[]，表示新生成的元素是列表中的元素

解析操做是如何工做的

Python中的解析操做经常使用来生成各类数据容器，且生成的效率很是高，它在底层彻底是以C的方式运行的。

在了解了数学中集合描述和解析的对应方式后，要理解解析的工做方式很简单，以列表解析为例。

首先用迭代工具for对容器中的元素进行迭代，每一个元素都通过谓词进行筛选，对符合条件的元素执行外部表达式，每一个外部表达式都生成一个新的元素，而后做为新列表的一个元素，从而推导出一个新的列表。

解析是一个表达式，在后面的文章中还会看到大部分解析能够写成等价的函数map、filter等函数式，但解析的逻辑要更清晰且更简洁。

与解析操做等价的普通循环

python中的解析行为由for这个迭代工具来迭代，它和普通的for循环逻辑同样，但用法稍有不一样。从前面的示例中也能够看出解析操做的外部表达式部分在for关键字的前面，而普通for循环的表达式则是在for关键字后面。

解析操做也能由普通的循环来生成。例如：

# for循环实现列表解析操做
L1 = []
for i in range(10):
  if i % 2 == 0 :
    L1.append(i * 2)


# 列表解析
L2 = [ i * 2 for i in range(10) if i % 2 == 0 ]

print(L1)
print(L2)

结果：

[0, 4, 8, 12, 16]
[0, 4, 8, 12, 16]

并且，解析操做比普通的for循环运行速度更快，解析操做在Python解释器中是彻底使用C来运行的，而普通for循环则是在python VM中经过步进的方式运行的。通常来讲，解析操做和map函数速度差很少(解释器中都是C的运行方式)，它们都要比普通for快上1-2倍。特别是要生成的元素较多时，解析操做每每要比等价的普通循环快上一倍多。

用解析来操做文件

对于open()打开的文件，有一个readlines()函数能够将全部行读取到一个列表中，每一行都是这个列表中的一个元素。

如下是文件a.txt的文件内容：

first line
second line
third line

经过readlines()读取a.txt：

>>> f = open('a.txt')
>>> lines = f.readlines()
>>> lines
['first line\n', 'second line\n', 'third line\n']

这里每个元素都包含了尾随换行符\n，这在编程时是很是使人厌恶的，由于很差控制是否是要本身添加一个换行符。因此，每每会对每一行都执行一个去除尾随换行符的操做，这能够经过列表解析来执行：

>>> lines = [ line.rstrip() for line in lines ]
>>> lines
['first line', 'second line', 'third line']

实际上，open()打开的文件对象是一个可迭代对象，能够直接进行迭代，因此也能够直接用于解析操做：

>>> lines = [line.rstrip() for line in open('a.txt')]
>>> lines
['first line', 'second line', 'third line']

看上去真的很简洁，并且很简单很方便，实际上这也很高效。

嵌套的解析

解析操做能够变得更加复杂，好比能够进行for嵌套。

>>> [x + y for x in "abcd" for y in "ABCD"]
['aA', 'aB', 'aC', 'aD', 'bA', 'bB', 'bC', 'bD', 'cA', 'cB', 'cC', 'cD', 'dA', 'dB', 'dC', 'dD']

它等价于：

L = []
for x in "abcd":
  for y in "ABCD":
    L.append(x + y)

for嵌套的时候，每个for中用于筛选元素的if语句都是可选的。

例如，下面的嵌套for解析中，使用偶数和奇数的组合：

>>> [ (x,y) for x in range(5) if x % 2 == 0 for y in range(5) if y % 2 ==1 ]
[(0, 1), (0, 3), (2, 1), (2, 3), (4, 1), (4, 3)]

这个解析表达式等价于：

>>> L = []
>>> for x in range(5):
...     if x % 2 == 0:
...         for y in range(5):
...             if y % 2 == 1:
...                 L.append((x, y))

[(0, 1), (0, 3), (2, 1), (2, 3), (4, 1), (4, 3)]