python——pickle模块的详解

时间 2019-11-26

原文原文链接

pickle模块详解python

该pickle模块实现了用于序列化和反序列化Python对象结构的二进制协议。 “Pickling”是将Python对象层次结构转换为字节流的过程， “unpickling”是反向操做，从而将字节流（来自二进制文件或相似字节的对象）转换回对象层次结构。pickle模块对于错误或恶意构造的数据是不安全的。
安全

pickle协议和JSON（JavaScript Object Notation）的区别：dom

　　1. JSON是一种文本序列化格式（它输出unicode文本，虽然大部分时间它被编码utf-8），而pickle是二进制序列化格式;函数

　　2. JSON是人类可读的，而pickle则不是;工具

　　3. JSON是可互操做的，而且在Python生态系统以外普遍使用，而pickle是特定于Python的;编码

默认状况下，JSON只能表示Python内置类型的子集，而不能表示自定义类; pickle能够表示极其庞大的Python类型（其中许可能是自动的，经过巧妙地使用Python的内省工具;复杂的案例能够经过实现特定的对象API来解决）。spa

pickle 数据格式是特定于Python的。它的优势是没有外部标准强加的限制，例如JSON或XDR（不能表明指针共享）; 可是这意味着非Python程序可能没法重建pickled Python对象。设计

默认状况下，pickle数据格式使用相对紧凑的二进制表示。若是您须要最佳尺寸特征，则能够有效地压缩数据。指针

模块接口code

要序列化对象层次结构，只需调用该dumps()函数便可。一样，要对数据流进行反序列化，请调用该loads()函数。可是，若是您想要更多地控制序列化和反序列化，则能够分别建立一个Pickler或一个Unpickler对象。

pickle模块提供如下常量：

pickle.HIGHEST_PROTOCOL: 整数，可用的最高协议版本。这个值能够做为一个被传递协议的价值函数 dump()和dumps()以及该Pickler 构造函数。

pickle.DEFAULT_PROTOCOL: 整数，用于编码的默认协议版本。可能不到HIGHEST_PROTOCOL。目前，默认协议是3，这是为Python 3设计的新协议。

pickle模块提供如下功能，使酸洗过程更加方便：

pickle.dump（obj，file，protocol = None，*，fix_imports = True ）

将obj对象的编码pickle编码表示写入到文件对象中，至关于Pickler(file,protocol).dump(obj)

可供选择的协议参数是一个整数，指定pickler使用的协议版本，支持的协议是0到HIGHEST_PROTOCOL。若是未指定，则默认为DEFAULT_PROTOCOL。若是指定为负数，则选择HIGHEST_PROTOCOL。

文件参数必须具备接受单个字节的参数写方法。所以，它能够是为二进制写入打开的磁盘文件， io.BytesIO实例或知足此接口的任何其余自定义对象。

若是fix_imports为true且protocol小于3，则pickle将尝试将新的Python 3名称映射到Python 2中使用的旧模块名称，以便使用Python 2可读取pickle数据流。

pickle.dumps（obj，protocol = None，*，fix_imports = True ）

将对象的pickled表示做为bytes对象返回，而不是将其写入文件。

参数protocol和fix_imports具备与in中相同的含义 dump()。

pickle.load（file，*，fix_imports = True，encoding =“ASCII”，errors =“strict” ）

从打开的文件对象文件中读取pickle对象表示，并返回其中指定的重构对象层次结构。这至关于Unpickler(file).load()。

pickle的协议版本是自动检测的，所以不须要协议参数。超过pickle对象的表示的字节将被忽略。

参数文件必须有两个方法，一个采用整数参数的read()方法和一个不须要参数的readline()方法。两种方法都应返回字节。所以，文件能够是为二进制读取而打开的磁盘文件，io.BytesIO对象或知足此接口的任何其余自定义对象。

可选的关键字参数是fix_imports，encoding和errors，用于控制Python 2生成的pickle流的兼容性支持。若是fix_imports为true，则pickle将尝试将旧的Python 2名称映射到Python 3中使用的新名称。编码和错误告诉pickle如何解码Python 2编码的8位字符串实例; 这些默认分别为'ASCII'和'strict'。该编码能够是“字节”做为字节对象读取这些8位串的实例。使用encoding='latin1'所需的取储存NumPy的阵列和实例datetime，date而且time被Python 2解码。

pickle.loads（bytes_object，*，fix_imports = True，encoding =“ASCII”，errors =“strict” ）

从bytes对象读取pickle对象层次结构并返回其中指定的重构对象层次结构。

pickle的协议版本是自动检测的，所以不须要协议参数。超过pickle对象的表示的字节将被忽略。

import numpy as np
import pickle
import io

if __name__ == '__main__':
    path = 'test'
    f = open(path, 'wb')
    data = {'a':123, 'b':'ads', 'c':[[1,2],[3,4]]}
    pickle.dump(data, f)
    f.close()

    f1 = open(path, 'rb')
    data1 = pickle.load(f1)
    print(data1)

对于python格式的数据集，咱们就可使用pickle进行加载了，下面与cifar10数据集为例，进行读取和加载：

import numpy as np
import pickle
import random
import matplotlib.pyplot as plt
from PIL import Image

path1 = 'D:\\tmp\cifar10_data\cifar-10-batches-py\data_batch_1'
path2 = 'D:\\tmp\cifar10_data\cifar-10-batches-py\data_batch_2'
path3 = 'D:\\tmp\cifar10_data\cifar-10-batches-py\data_batch_3'
path4 = 'D:\\tmp\cifar10_data\cifar-10-batches-py\data_batch_4'
path5 = 'D:\\tmp\cifar10_data\cifar-10-batches-py\data_batch_5'

path6 = 'D:\\tmp\cifar10_data\cifar-10-batches-py\\test_batch'

if __name__ == '__main__':
    with open(path1, 'rb') as fo:
        data = pickle.load(fo, encoding='bytes')

        # print(data[b'batch_label'])
        # print(data[b'labels'])
        # print(data[b'data'])
        # print(data[b'filenames'])

        print(data[b'data'].shape)

        images_batch = np.array(data[b'data'])
        images = images_batch.reshape([-1, 3, 32, 32])
        print(images.shape)
        imgs = images[5, :, :, :].reshape([3, 32, 32])
        img = np.stack((imgs[0, :, :], imgs[1, :, :], imgs[2, :, :]), 2)

        print(img.shape)

        plt.imshow(img)
        plt.axis('off')
        plt.show()

运行结果：

接下来就能够读取数据进行训练了。