python 数据统计，分组的一些小技巧

时间 2019-11-24

标签 python 数据统计分组些小技巧栏目 Python 繁體版

原文原文链接

--> python 数据统计，分组的一些小技巧

python 数据统计，分组的一些小技巧

2016-07-19 Python开发者 Python开发者

（点击上方公众号，可快速关注）html

来源：KillerManA 前端

连接：http://www.jianshu.com/p/e792eea5056cjava

最近在用python作数据统计，这里总结了一些最近使用时查找和总结的一些小技巧，但愿能帮助在作这方面时的一些童鞋。有些技巧是很日常的用法，平时咱们没有注意，可是在特定场景，这些小方法仍是能带来很大的帮助。python

1.在字典中将键映射到多个值上面web

{'b': [4, 5, 6], 算法

'a': [1, 2, 3]}数据库

有时候咱们在统计相同key值的时候，但愿把全部相同key的条目添加到以key为键的一个字典中，而后再进行各类操做，这时候咱们就能够使用下面的代码进行操做：微信

from collections import defaultdict

d = defaultdict(list)

print(d)

d['a'].append(1)

d['a'].append(2)

d['a'].append(3)

d['b'].append(4)

d['b'].append(5)

d['b'].append(6)

print(d)

print(d.get("a"))

print(d.keys())

print([d.get(i) for i in d])

这里是使用了collections中的方法，这里面还拥有不少有用的方法，咱们有时间在继续进行深刻了解。

上面代码运行结果：

defaultdict(, {})

defaultdict(, {'b': [4, 5, 6], 'a': [1, 2, 3]})

[1, 2, 3]

dict_keys(['b', 'a'])

[[4, 5, 6], [1, 2, 3]]

咱们将数据填入以后，至关于进行快速分组，而后遍历每一个组就能够统计一些咱们须要的数据。

2.迅速转换字典键值对

data = {...}

zip(data.values(), data.keys())

data是咱们的格式数据，使用zip后进行快速键值转换，而后能够使用max，min之类函数进行数据操做。

3.经过公共键对字典进行排序

from operator import itemgetter

data = [

    {'name': "bran", "uid": 101},

    {'name': "xisi", "uid": 102},

    {'name': "land", "uid": 103}

]

print(sorted(data, key=itemgetter("name")))

print(sorted(data, key=itemgetter("uid")))

数据格式就是data，咱们想要对name或者uid进行排序咱们就是用代码中的方法。

运行结果：

[{'name': 'bran', 'uid': 101}, {'name': 'land', 'uid': 103}, {'name': 'xisi', 'uid': 102}]

[{'name': 'bran', 'uid': 101}, {'name': 'xisi', 'uid': 102}, {'name': 'land', 'uid': 103}]

正如咱们指望中的同样

4.对列表中的多个字典根据某一字段进行分组

注意注意，在进行分组前要首先对数据进行排序处理，排序字段根据实际要求来选择

即将处理的数据：

rows = [

    {'name': "bran", "uid": 101, "class": 13},

    {'name': "xisi", "uid": 101, "class": 11},

    {'name': "land", "uid": 103, "class": 10}

]

指望处理结果：

{

101: [{'name': 'xisi', 'class': 11, 'uid': 101},{'name': 'bran', 'class': 13, 'uid': 101}],

103: [{'name': 'land', 'class': 10, 'uid': 103}]

}

咱们按照uid进行分组，这里只是演示，uid通常也不会重复。

这个比较复杂一点，咱们一部一步来分解

some = [('a', [1, 2, 3]), ('b', [4, 5, 6])]

print(dict(some))

结果：

{'b': [4, 5, 6], 'a': [1, 2, 3]}

这里咱们的目的是将元组转换成字典，这个很简单，应该都能看懂。接着咱们来下一步对待处理数据进行排序：

data_one = sorted(rows, key=itemgetter("class"))

print(data_one)

data_two = sorted(rows, key=lambda x: (x["uid"], x["class"]))

print(data_two)

这里咱们提供两种排序方式原理相同，只是样式稍有区别，第一种data_one是直接使用itemgetter，按照咱们前面使用过得，直接按照某一字段进行排序，但是有时候咱们会有另外一种要求：

先按照某一字段排序，当第一字段重复时，再按照另外一字段排序。

这时咱们就用第二种方法，进行多字段值排序。

排序结果以下：

[{'name': 'land', 'class': 10, 'uid': 103}, {'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}]

[{'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}, {'name': 'land', 'class': 10, 'uid': 103}]

结果你们慢慢看一下，仍是略有差异。

接下来就进行最后一步了，将咱们刚才讲的两种方式结合起来使用：

data = dict([(g, list(k)) for g, k in groupby(data_two, key=lambda x: x["uid"])])

print(data)

咱们对排序好的数据进行分组，而后生成元组列表，最后将其转换成字典，这里大功告成，咱们成功将数据进行分组。

今天这些小技巧在处理一些数据方面仍是颇有帮助的，但愿能帮到在这方面有须要的童鞋~

【今日微信公号推荐↓】

更多推荐请看《值得关注的技术和设计公众号》

其中推荐了包括技术、设计、极客和 IT相亲相关的热门公众号。技术涵盖：Python、Web前端、Java、安卓、iOS、PHP、C/C++、.NET、Linux、数据库、运维、大数据、算法、IT职场等。点击《值得关注的技术和设计公众号》，发现精彩！