Python——详解collections工具库

本文始发于我的公众号:TechFlow,原创不易,求个关注python


今天为你们介绍Python当中一个很好用也是很基础的工具库,叫作collections。算法

collection在英文当中有容器的意思,因此顾名思义,这是一个容器的集合。这个库当中的容器不少,有一些不是很经常使用,本篇文章选择了其中最经常使用的几个,一块儿介绍给你们。编程


defaultdict


defaultdict能够说是这个库当中使用最简单的一个,而且它的定义也很简单,咱们从名称基本上就能看得出来。它解决的是咱们使用dict当中最多见的问题,就是key为空的状况。api

在正常状况下,咱们在dict中获取元素的时候,都须要考虑key为空的状况。若是不考虑这点,那么当咱们获取了一个不存在的key,会致使系统抛出异常。咱们固然能够在每次get以前写一个if判断,可是这很麻烦,好比:安全

if key in dict:
    return dict[key]
else:
    return None
复制代码

固然,这是最笨的方法,dict当中为咱们提供了带默认值的get方法。好比,咱们能够写成:数据结构

return dict.get(key, None)
复制代码

这样,当key不在dict当中存在的时候,会自动返回咱们设置的默认值。这个省去了不少麻烦的判断,可是在一些特殊状况下仍然存在一点问题。举个例子,好比当key存在重复,咱们但愿将key相同的value存进一个list当中,而不是只保留一个。这种状况下写成代码就会比较复杂:并发

data = [(1, 3), (2, 1), (1, 4), (2, 5), (3, 7)]
d = {}
for k, v in data:
    if k in d:
        d[k].append(v)
    else:
        d[k] = [v]
复制代码

因为dict的value是一个list,因此咱们仍是须要判断是否为空,不能直接使用默认值,间接操做固然能够,可是仍是不够简单:app

for k, v in data:
    cur = d.get(k, [])
    cur.append(v)
    d[k] = v
复制代码

这和使用if区别并不大,为了完美解决这个问题,咱们可使用collections当中的defaultdict函数

from collections import defaultdict
d = defaultdict(list)

for k, v in data:
    d[k].append(v)
复制代码

使用defaultdict以后,若是key不存在,容器会自动返回咱们预先设置的默认值。须要注意的是defaultdict传入的默认值能够是一个类型也能够是一个方法。若是咱们传入int,那么默认值会被设置成int()的结果,也就是0,若是咱们想要自定义或者修改,咱们能够传入一个方法,好比:工具

d = defaultdict(lambda: 3)

for k, v in data:
    d[k] += v
复制代码

Counter


这是一个很是经常使用和很是强大的工具,咱们常常用到。

在咱们实际的编程当中,咱们常常遇到一个问题,就是数数和排序。好比说咱们在分析文本的时候,会获得一堆单词。其中可能有大量的长尾词,在整个文本当中可能只出现过寥寥几回。因而咱们但愿计算一下这些单词出现过的数量,只保留出现次数最高的若干个。

这个需求让咱们本身实现固然也不困难,咱们彻底能够建立一个dict,而后对这些单词一个一个遍历。本来咱们还须要考虑单词以前没有出现过的状况,若是咱们上面说的defaultdict,又要简单许多。可是咱们仍是少不了计数而后排序的步骤,若是使用Counter这个步骤会缩减成一行代码。

举个例子:

words = ['apple', 'apple', 'pear', 'watermelon', 'pear', 'peach']
from collections import Counter
counter = Counter(words)

>>> print(counter)

Counter({'apple': 2, 'pear': 2, 'watermelon': 1, 'peach': 1})
复制代码

咱们直接将一个list传入Counter中做为参数,它会自动为咱们替当中的每一个元素计数。

若是咱们要筛选topK,也很是简单,它为咱们提供了most_common方法,咱们只须要传入须要求的K便可:

counter.most_common(1)

[('apple', 2)]
复制代码

除此以外,它的构造函数还接收dict类型。咱们能够直接经过一个value是int类型的dict来初始化一个Counter,好比:

c = Counter({'apple': 5, 'pear': 4})
c = Counter(apple=4, pear=3)
复制代码

而且,它还支持加减法的操做,好比咱们能够将两个Counter相加,它会自动将两个Counter合并,相同的key对应的value累加。相减也是同理,会将能对应的value作减法,被减的key对应不上的会保留,而减数中对应不上的key则会被丢弃。而且须要注意,Counter支持value为负数。


deque


咱们都知道queue是队列,deque也是队列,不过稍稍特殊一些,是双端队列。对于queue来讲,只容许在队尾插入元素,在队首弹出元素。而deque既然称为双端队列,那么说明它的队首和队尾都支持元素的插入和弹出。相比于普通的队列,要更加灵活一些。

除了经常使用的clear、copy、count、extend等api以外,deque当中最经常使用也是最核心的api还有append、pop、appendleft和popleft。从名字上咱们就看得出来,append和pop和list的append和pop同样,而appendleft和popleft则是在队列左侧,也就是头部进行pop和append的操做。很是容易理解。

在平常的使用当中,真正用到双端队列的算法其实不太多。大多数状况下咱们使用deque主要有两个缘由,第一个缘由是deque收到GIL的管理,它是线程安全的。而list则没有GIL锁,所以不是线程安全的。也就是说在并发场景下,list可能会致使一致性问题,而deque不会。另外一个缘由是deque支持固定长度,当长度满了以后,当咱们继续append时,它会自动弹出最先插入的数据。

好比说当咱们拥有海量的数据,咱们不知道它的数量,可是想要保留最后出现的指定数量的数据的时候,就可使用deque。

from collections import deque
dque = deque(maxlen=10)
# 假设咱们想要从文件当中获取最后10条数据
for i in f.read():
    dque.append(i)
复制代码

namedtuple


namedtuple很特殊,它涉及到元编程的概念。简单介绍一下元编程的概念,咱们不作过多的深刻。简而言之,就是在常见的面向对象当中。咱们都是定义类,而后经过类的构造函数来建立实例。而元编程指的是咱们定义元类,根据元类建立出来的并非一个实例,而是一个类。若是用模具和成品来分别比喻类和实例的话,元类至关因而模具的模具

namedtuple是一个很是简单的元类,经过它咱们能够很是方便地定义咱们想要的类。

它的用法很简单,咱们直接来看例子。好比若是咱们想要定义一个学生类,这个类当中有name、score、age这三个字段,那么这个类会写成:

class Student:
    def __init__(self, name=None, score=None, age=None):
        self.name = name
        self.score = score
        self.age = age
复制代码

这还只是粗略的写法,若是考虑规范,还须要定义property等注解,又须要不少代码。若是咱们使用namedtuple能够简化这个工做,咱们来看代码:

from collections import namedtuple
# 这个是类,columns也能够写成'name score age',即用空格分开
Student = namedtuple('Student', ['name', 'score', 'age'])

# 这个是实例
student = Student(name='xiaoming', score=99, age=10)
print(student.name)
复制代码

经过使用namedtuple,咱们只须要一行就定义了一个类,可是这样定义的类是没有缺失值的,可是namedtuple很强大,咱们能够经过传入defaults参数来定义缺失值。

Student = namedtuple('Student', ['name', 'score', 'age'], defaults=(0, 0))
复制代码

能够注意到,虽然咱们定义了三个字段,可是咱们只设置了两个缺失值。在这种状况下,namedtuple会自动将缺失值匹配上score和age两个字段。由于在Python的规范当中,必选参数必定在可选参数前面。因此nuamdtuple会自动右对齐。

细数一下,咱们今天的文章当中介绍了defaultdict、Counter、deque和namedtuple这四种数据结构的用法。除了这四个以外,collections库当中还有一些其余的工具类,只是咱们用的频率稍稍低一些,加上因为篇幅的缘由,这里就很少作赘述了。感兴趣的同窗能够自行查看相关的api和文档。

今天的文章就是这些,若是以为有所收获,请顺手扫码点个关注吧,大家的举手之劳对我来讲很重要。

相关文章
相关标签/搜索