上一节咱们学习了文件的读写,把一个字符串(或字节对象)保存到磁盘是一件很容易的事情。可是在实际编程中,咱们常常须要保存结构化数据,好比复杂的字典、嵌套的列表等等,这时候就须要咱们想办法把这些结构化数据先转变成一个字符串,这个转换过程就叫作“序列化”,这一过程的逆操做就是“反序列化”。程序员
序列化数据的操做在各个语言编程中都会遇到,固然也出现了标准化的格式,好比:JSON(JavaScript Object Notation)。JSON格式一般被现代应用程序用于数据交换,尤为是在Web中广为人知,是许多程序员的选择。Python支持JSON的模块叫作json
。编程
JSON的数据格式和Python中的字典和列表很是类似,能够说它是字典和列表相互嵌套的结合体,而这些字典和列表的基本数据类型只能是:字符串、整数、浮点数、布尔型、None,不能是自定义的类等复杂对象。json
一个对象x
能够用一行简单的代码转换成它对应的JSON字符串:安全
In [124]: import json In [125]: json.dumps({'Tom': 23, 'Jim': 25, 'William': 21}) Out[125]: '{"Tom": 23, "Jim": 25, "William": 21}'
把JSON字符串反序列化为Python对象的代码也只有一行:函数
In [126]: json.loads('{"Tom": 23, "Jim": 25, "William": 21}') Out[126]: {'Tom': 23, 'Jim': 25, 'William': 21}
dumps()
方法有个变体叫作dump()
,它是将对象序列化到文件中。若是f
是一个文件对象,咱们能够这样操做:工具
json.dump(x, f)
对应的,从文件对象f
中反序列化的操做就是:学习
x = json.load(f)
dumps()
函数有不少参数可选,使咱们生成不一样格式的JSON字符串,具体能够在IPython中经过json.dumps?
来查看。咱们能够经过下面的例子来了解一下:编码
(1)紧凑编码
经过separators
参数来实现:spa
In [130]: json.dumps({"Tom": 23, "Jim": 25, "William": 21}, separators=(',', ':')) Out[130]: '{"Tom":23,"Jim":25,"William":21}'
(2)美化输出
经过sort_keys, indent
参数来实现:设计
In [132]: print(json.dumps({"Tom": 23, "Jim": 25, '9':3, '3': 10}, sort_keys=True, indent=4)) { "3": 10, "9": 3, "Jim": 25, "Tom": 23 }
(3)中文编码
参数ensure_ascii
默认为True,会把中文等非ascii字符转义:
In [133]: print(json.dumps({"小刚": 23, "小明": 25, '9':3, '3': 10}, sort_keys=True, indent=4)) { "3": 10, "9": 3, "\u5c0f\u521a": 23, "\u5c0f\u660e": 25 } In [134]: print(json.dumps({"小刚": 23, "小明": 25, '9':3, '3': 10}, sort_keys=True, indent=4, ensure_ascii=False)) { "3": 10, "9": 3, "小刚": 23, "小明": 25 }
与json
模块不一样,pickle
能够对任意复杂的Python对象进行序列化,它是Python特有的,不能与其它语言进行通讯。默认状况下,它也是不安全的,若是数据是由黑客精心设计的,则反序列化的数据可能被植入恶意代码。
pickle
的接口跟json
是同样的,序列化用dumps(x), dump(x, f)
,反序列化使用loads(s), load(f)
。可是,pickle
能够序列化任意复杂的对象,好比自定义的类、函数都是能够用它来序列化的。好比下面这个例子就是序列化b并反序列化一个函数:
In [136]: def add(x, y): ...: print(x+y) ...: In [137]: import pickle In [138]: s = pickle.dumps(add) In [139]: s Out[139]: b'\x80\x03c__main__\nadd\nq\x00.' In [140]: f = pickle.loads(s) In [141]: f Out[141]: <function __main__.add(x, y)> In [142]: f(2, 3) 5
从这个例子中,咱们实现了序列化和反序列化一个函数的功能。这样,咱们能够把一些函数、自定义的类等各类对象先序列化到文件,而后把这个文件发给别人,别人能够经过反序列化来使用这些自定义的类和函数。这个过程当中,若是有人对序列化文件作了手脚,好比经过修改文件修改了函数add()
的实现,就有可能被黑客利用来进行攻击。这也是前面咱们为何说pickle
默认是不安全的。因此,在选择是否使用它进行序列化时,要先思考一番。
Python为咱们提供了数据序列化的工具。若是须要和其它程序进行数据交换,json是最好的选择。若是是本身内部使用,pickle能够做为一个选择进行复杂对象的序列化。