导语:本文章记录了本人在学习Python基础之数据结构篇的重点知识及我的心得,打算入门Python的朋友们能够来一块儿学习并交流。
本文重点:html
一、掌握常见的字典建立,查询,判别方法;
二、了解字典中的defaultdict、子类化Userdict和常见映射类型;
三、了解支撑字典和集合背后的散列表的工做原理。
分为字面量句法和构造方法两种,下面以{"one":1,"two":2,"three":3}为例java
d1={"one":1,"two":2,"three":3}#字面量句法 d2=dict(one=1,two=2,three=3) d3=dict([("one",1),("two",2),("three",3)]) d4=dict({"one":1,"two":2,"three":3}) d5=dict(zip(["one","two","three"],[1,2,3]))#zip并行解包 print(d1==d2==d3==d4==d5)#True
以上五种方法建立的字典是相等的。python
映射类型(Mapping Types)是一种关联式的容器类型,它存储了对象与对象之间的映射关系。
字典是Python中惟一的映射类型,它是存储了若干键值对(由键映射到值)的关联容器。算法
collections.abc模块中有两个抽象基类,分别是Mapping和MutableMapping,它们为dict和其余相似的类型定义形式接口。安全
isinstance:断定object的类型
语法:isinstance(object, classinfo)数据结构
eg:app
from _collections_abc import Mapping my_dict={} print(isinstance(my_dict,Mapping))#判断数据是否为广义映射类型。输出True.
isinstance和type的区别:
若对象是classinfo中一个类的子类,isinstance能够判断出来返回True,而type是不能的。函数
字典推导:在{}中使用命令语句加for甚至if实现迭代推导出新列表的操做。
post
Country_Codes=[(86,"China"),(91,"India"),(1,"United States"),(62,"Indonesia"),(55,"Brazil"),(92,"Pakistan"),(81,"Japan")] dict1={country:code for code,country in Country_Codes}#推导过程 print(dict1) dict2={code:country.upper() for code,country in Country_Codes if code>80}#由限制要求建立字典 print(dict2) #输出: {'China': 86, 'India': 91, 'United States': 1, 'Indonesia': 62, 'Brazil': 55, 'Pakistan': 92, 'Japan': 81} {86: 'CHINA', 91: 'INDIA', 92: 'PAKISTAN', 81: 'JAPAN'}
d.setdefault VS d.get
d.setdefault(k,[default])和d.get(k,[default])两种方法均可以处理找不到的键的状况,区别在于setdefault在返回默认值的同时可以在原字典建立新的k-default键值对。
因此更新某个键值对但键不必定存在时,用d.setdefault更好一些.学习
eg1:处理找不到的键
names=["Ailee","Bob","Cindy"] ages=["19","17","15"] dict3={x:y for x,y in zip(names,ages)}#用zip能够并行拆包. print(dict3) print(dict3.get("David","20")) print(dict3)#get处理查不到的键时返回默认值,但不会在原字典建立这个键. dict3.setdefault("David","20") print(dict3)#setdefault处理查不到的键时返回默认值,而且会在原字典建立这个键.
格式:class collections.defaultdict([default_factory[, ...]])
defaultdict是內建dict的子类,它可以在查询找不到的键时为其创造默认值,由此避免抛出keyerror。其余功能与dict相同。
eg:defaultdict推导
from _collections import defaultdict dict3=defaultdict(list,[(x,y) for x,y in zip([1,2,3,4,5],list("apple"))]) print(dict3) #输出: defaultdict(<class 'list'>, {1: 'a', 2: 'p', 3: 'p', 4: 'l', 5: 'e'})
eg:查询点名册同窗的出席次数
from _collections import defaultdict namelist=['Ailee', 'Bob', 'Cindy', 'Ailee', 'Bob', 'Cindy', 'Cindy', 'Cindy', 'Bob', 'Cindy', 'Ailee', 'Bob', 'Bob'] count=defaultdict(int)#使用记录值数据结构整型做为默认的工厂函数 for x in namelist: count[x]+=1 print(count)#defaultdict(<class 'int'>, {'Ailee': 3, 'Bob': 5, 'Cindy': 5})
原理解释:defaultdict在查询找不到的键时会经过__getitem__调用__missing__,而后__missing__根据default_factory选择返回默认值。当不输入default_factory时,会抛出keyerror。
咱们能够经过print (defaultdict.__missing__.__doc__)来看__missing__的内部实现:
__missing__(key) # Called by __getitem__ for missing key; pseudo-code: if self.default_factory is None: raise KeyError((key,)) self[key] = value = self.default_factory()#为找不到的键建立默认值 return value
注意:__missing__只能被__getitem__调用,调用__getitem__可用d[k],d.get(k)无效。
default_factory的选择
可调用函数做为初始化函数参数
使用任何不带参数的可调用函数,并以该函数返回值做为默认值。
仍以点名code为例,有两种方法:
1)自定义函数:
def zero(): return 0 count=defaultdict(zero)
2)使用lambda建立匿名函数
count=defaultdict(lambda :0)
UserDict继承自抽象基类(abstract based class)中的MutableMapping。UserDict是让用户继承写子类的。
之因此倾向于从UserDict而不是dict继承的缘由是,这是由于在覆盖重写dict类的 get(k, default)、__setitem__( )、__contain__( )、__missing__( ) 等方法时,经常又会使用到 mapObj[k]、 k in mapObj、mapObj[k] 等语法形式,这样一不当心就会形成这些内部方法的无穷递归调用。
可是UserDict就不会有此类问题。
UserDict有一个data的属性,是dict的实例。用户定义UserDict的子类时若是重写方法,并不会递归调用UserDict的其余方法,而是对UserDict.data
进行操做,这样就减小了用户自定义dict时防范死循环递归的难度。
eg:
import collections class Modified_Dict(collections.UserDict):#继承自UserDict def __missing__(self,key): if isinstance(key, str):#防止递归循环,及时抛出keyerror raise KeyError(key) return self[str(key)] def __contains__(self,key): return str(key) in self.data def __setitem__(self, key, item): self.data[str(key)]=item dict4=Modified_Dict({'Ailee': 3, 'Bob': 5, 'Cindy': 5})#使用新dict类构造字典 print(dict4["Ailee"])#输出:3 dict4.update({"one":1,"two":2}) print(dict4)#输出:{'Ailee': 3, 'Bob': 5, 'Cindy': 5, 'one': 1, 'two': 2}
错误示范:这里应该加圆括号创建自定义dict的空字典,不然以后的数据没法被更新
dict5=Modified_Dict dict5.update({"one":1,"two":2}) print(dict5)#<class '__main__.Modified_Dict'>发现update失败 -_-!
UserDict继承自Mapping基类,诸如MutableMapping.update和Mapping.get也很实用。(截止2017.12.15 未掌握Mapping.get)
从Python3.3开始,type模块引入了一个封装类名叫作MappingProxyType。MappingProxyType提供一个可读的动态映射视图,即用户没法从这个视图对原映射进行改动,可是原映射有改动时能够经过这个视图观察到。
此类型特色在于防止用户错误的修改映射。
from types import MappingProxyType Prize_number={'Ailee': 3, 'Bob': 5, 'Cindy': 5} dict6=MappingProxyType(Prize_number) dict6["Ailee"]=6#不支持改动。TypeError: 'mappingproxy' object does not support item assignment print(dict6) Prize_number["Ailee"]=6 print(dict6)#{'Ailee': 6, 'Bob': 5, 'Cindy': 5}原映射改动可视。
collections.OrderedDict
OrderedDict可以记住key的插入前后顺序。
eg:
from _collections import OrderedDict d = {'banana': 3, 'apple': 4, 'pear': 1, 'orange': 2} print(OrderedDict(sorted(d.items()))) print(OrderedDict(sorted(d.items(),key=lambda t :t[1])))
输出:
OrderedDict([('apple', 4), ('banana', 3), ('orange', 2), ('pear', 1)]) OrderedDict([('pear', 1), ('orange', 2), ('banana', 3), ('apple', 4)])
在以前第二章namedtuple中也提到过。namedtuple的实例方法_asdict()把具名元组以collections.OrderedDict的形式返回。
collections.ChainMap
ChainMap能够容纳数个不一样的映射对象,而后在进行键查找操做的时候,这些对象会被当成一个总体被逐个查找,直到键被找到为止。
查询规则片断:
import builtins pylookup = ChainMap(locals(), globals(), vars(builtins))
想了解更多:
https://docs.python.org/3/lib...
collections.Countercounter用来统计目标集合中不一样的元素及其频数,利用most_common([n])返回前n个频数最高的值以及相应的计数。
eg:
from collections import Counter ct=Counter('wasdddsasd') print(ct)#Counter({'d': 4, 's': 3, 'a': 2, 'w': 1}) ct.update("dassddd") print(ct.most_common(2))#[('d', 8), ('s', 5)]
定义:Python标准文库给出的定义:A set object is an unordered collection of distinct hashable objects.
翻译过来就是:set是一个包含不一样可散列对象的无序集合
种类:集合这种数据结构包含set和frozenset,二者的区别在于后者不可变而前者可变,相似于元组之于列表。所以frozenset相比set不具有修改一类的方法。
本质:集合是许多惟一对象的汇集,因此能够用来去重。
新建set:
新建frozenset:
集合推导:
集合推导在大括号中进行,思路与列表推导,字典推导相似。
eg:
set3={chr(i)for i in range(100,110)} print(set3)#{'k', 'f', 'i', 'e', 'd', 'm', 'l', 'g', 'j', 'h'}
set的操做方法包含frozenset的操做方法,区别在于frozenset不支持就地改变集合的方法,这一点与元组很相似。
下面展现set的操做方法,其中涉及修改自己的不适用于frozenset
若想深刻理解dict和set,首先须要了解它们背后的散列表。
散列(hashing)是电脑科学中一种对资料的处理方法,经过某种特定的函数/算法(称为散列函数/算法)将要检索的项与用来检索的索引(称为散列,或者散列值)关联起来,生成一种便于搜索的数据结构(称为散列表)。也译为散列。旧译哈希(误觉得是人名而采用了音译)。它也经常使用做一种资讯安全的实做方法,由一串资料中通过散列算法(Hashing algorithms)计算出来的资料指纹(data fingerprint),常常用来识别档案与资料是否有被窜改,以保证档案与资料确实是由原创者所提供。
冲突
。具备相同函数值的关键字对该散列函数来讲称作同义词。综上所述,根据散列函数f(k)和处理冲突的方法将一组关键字映射到一个有限的连续的地址集(区间)上,并以关键字在地址集中的“像”做为记录在表中的存储位置,这种表便称为散列表,这一映射过程称为散列造表或散列,所得的存储位置称散列地址。减小冲突的方法:
散列表的存储特色:
衡量散列表的利用率有一个概念叫作载荷因子:
`α= 已有的元素个数/表的长度`
载荷因子越大,插入到散列表中的元素越多,产生冲突的几率随之增大。所以一般载荷因子被设计成0.75,保证必定的表元是空的。散列表的存储特色决定了它耗费存储空间的特色。
散列表本质要解决的是查找时间的问题。若是顺序查找的话,时间复杂度为O(n);而散列表,时间复杂度则为O(1)!直接甩了一个次元,这也就是为何在大量数据存储查找的时候,散列表获得大量应用的缘由。
注:散列表知识引自
做者:SakuraWood
连接:https://juejin.im/post/5a1bd0...
来源:掘金
给定一个键,要么返回查询值,要么抛出keyerror。
Tips:不要对字典同时进行修改和迭代。
由于你的修改有可能致使键的次序发生变化,从而在迭代中遗漏某些数据