基于安全压缩感知的大数据隐私保护

时间 2021-04-09

原文原文链接

基于安全压缩感知的大数据隐私保护算法

王平1, 张玉书2, 何兴1, 仲盛3安全

1 西南大学电子信息工程学院，重庆 400715服务器

2 南京航空航天大学计算机科学与技术学院，江苏南京 211106网络

3 南京大学计算机科学与技术系，江苏南京 210023框架

摘要：当前的数据“大爆炸”主要受万物互联的驱动，服务于人类衣食住行的各种物联网感知设备时刻在捕获我的隐私数据，然而，这些隐私数据已成为网络***的重点目标。分析了资源受限的物联网应用中的数据安全问题，介绍了基于压缩感知理论的隐私保护技术—— 安全压缩感知，提出了相应的大数据采集方案，而且经过安全性理论和实验分析给出告终论性的呼吁：将安全压缩感知做为一种感知层内置的轻量级加密机制，以近乎零的成本为数据提供第一层安全防御。less

关键词：安全压缩感知 ; 大数据 ; 物联网 ; 隐私保护ide

论文引用格式：性能

王平, 张玉书, 何兴, 仲盛.基于安全压缩感知的大数据隐私保护. 大数据[J], 2020, 6(1）：3-11测试

WANG P, ZHANG Y S, HE X, ZHONG S.Big data privacy protection based on secure compressive sensing. Big Data Research[J], 2020, 6(1):3-11大数据

1 引言

随着数字化和信息化程度的不断提高，全球已进入大数据时代。根据国际数据公司（International Data Corporation，IDC）在2018年11月发布的调研报告显示，全球大数据存储量呈现爆炸式增加。如图1所示，全球数据量预计将从2018年的33 ZB增至2025年的175 ZB。值得兴奋的是，中国数据圈占比将从2018年的23.4％（即7.6 ZB）增至2025年的27.8％（即48.6 ZB），成为全球范围内最大数据圈。大数据是人、机和物在网络空间中交互、融合所产生并在互联网上可得到的数据集合，其具备容量大、类型多、集中化存储的特色，经过现代化大数据分析和预测手段，能够充分挖掘其背后隐藏的新知识、新价值和新动力，进而在电信、互联网、金融、交通、医疗等行业创造新的商业模式和应用价值。目前，大数据逐步成为国家基础战略资源和社会基础的生产要素。
目前，数据的增加主要受到来自物联网数据、元数据和与娱乐相关的数据增加的影响，其中物联网数据增速迅猛。在万物互联的时代，成千上万的传感器、服务器和智能终端构成一个比传统互联网更加普遍的物联网，人们能够从外界感知信息，信息交互再也不仅限于人与人之间。物联网的发展必然伴随着局域链接与广域链接业务的急剧增加，随着5G商业化落地，联网终端会进一步增多，这将会产生海量的物联网数据。预计到2025年，全球各地联网的数十亿台物联网设备将产生超过90 ZB的数据，这主要受到车联网、无人机网络、可穿戴设备网络和各类监测网络等的驱动。在大数据和物联网时代，人始终是物联网的中心，各类物联网应用服务于人类的衣食住行。无所不在的数据收集技术和专业化、多样化的数据处理技术，使得我的难以控制隐私数据的收集情境和应用途径。因其蕴藏的巨大潜在价值和逐渐集中化的存储管理模式，隐私数据成为网络***的重点目标。根据数字安全领域的金雅拓公司（Gemalto）统计，仅2018年上半年，全球范围内公共数据泄露事件达945起，致使45亿条信息泄露。如何保障大数据隐私安全成为一项迫在眉睫的全球性问题。此外，为了追求极致的用户体验，物联网终端设备广泛呈现出轻量化、可植入化的特色，在资源受限的应用环境下数据安全更加难以保障。
压缩感知（compressive sensing，CS）采用混沌密码对采样数据进行二次强加密。也有研究代表，当采用高斯随机数发生器构造测量系统时，经过隐藏样本的能量信息可实现完美加密。此外，一种基于SCS的多级加密框架被提出，针对不一样权限级别的用户，从密文中获取的信息量是不一样的。

图1 每一年全球数据量增加状况预测

本文首先经过介绍CS理论基础引出SCS技术，即嵌入保密性的CS。而后，提出SCS技术广泛适用的物联网场景模型，而且从密码学的角度给出理论分析。最后，经过仿真实验进一步阐述SCS技术的可行性和安全性，并给出结论性的呼吁，即将其做为一种低成本的、内置保密性的信息获取技术，普遍应用在资源受限的物联网场景中。

2 压缩感知理论

CS理论基于信号的稀疏性或可压缩性，不一样于传统的先采样后压缩过程（如图2所示），其可以同步执行采样和压缩操做，而且经过解决欠定方程，系统可以精确地重构出原始信号。假定一个长度为N的一维信号X，可以在一个大小为N×N的变换矩阵图片的做用下稀疏化，那么称之为K-稀疏信号，其中图片。稀疏过程表示为：

其中，S为一个长度为N的系数向量，包含至多K个非零元。若是S是由占绝大多数的小数值元素和少许的大数值元素组成的，那么X被称为可压缩信号，能够经过将全部小数值元素视为零元素进行近似稀疏表示。幸运的是，大部分天然信号在预知的一组基上能够进行稀疏化。

图2 压缩感知和传统采样对比

在CS理论中，经过构建一个与图片不相干的大小为M×N（K<M<<N）的矩阵图片来线性测量原始信号x，该过程可表示为：

其中，Y表示长度为M的测量值向量，图片和图片分别叫做测量矩阵和传感矩阵。采样时用的是测量矩阵图片，而重构时用的是传感矩阵A。
由条件K<M<<N能够看出，CS理论主要解决的是欠采样状况下的信号重构问题。本质上，这是一个病态的求逆问题，即经过式（2）求解X是一个欠定问题，不具有惟一解。可是，基于原始信号是K-稀疏的先验信息，即信号X只有K+1个自由度，理论上仅需超过该自由度的测量数即可以经过最优化方法重构原始信号。具体的作法是求解如下的l0最优化问题：

其中，ε表示噪声。求解式（3）是经过遍历全部可能状况的集合来找到最稀疏的形式，显然这是一个NP难问题。经常使用的重构算法包括匹配追踪（matching pursuit， MP）和正交匹配追踪（orthogonal matching pursuit，OMP）。经研究代表，求解式（3）可等价于求解如下的l1最优化问题：

求解式（4）是一个线性规划问题，利用经常使用的基追踪（basis pursuit，BP）算法即可准确地重构信号。
为了保证可以精确地从测量值Y中重构出原始信号X，除了信号的稀疏性这一先验信息，测量矩阵图片与变换矩阵图片应该尽量不相干。对此，传感矩阵A须要具有如下受限等距特性（restricted isometry property，RIP）：

存在δK∈(0,1)，对于全部的K-稀疏信号s，使得上述不等式成立。事实上，检验一个矩阵是否知足RIP条件也是一个NP难问题。Candès和Tao指出，由独立同分布的高斯或伯努利随机变量构成的随机测量矩阵与任何一个固定变换矩阵大几率不相干。整体来讲，待采样信号的稀疏化程度越高，测量矩阵与变换矩阵之间的不相干程度越高，信号重构效果便会越好。

3 基于压缩感知的大数据隐私保护

该节首先在CS理论的基础上介绍融合混沌理论的SCS技术；而后，针对大数据时代的我的隐私泄露问题，构建了SCS技术广泛适用的物联网场景模型；最后，从信息理论上给出SCS技术的安全性分析。

3.1 安全压缩感知

在CS理论中，原始信号X的成功重构依赖于测量矩阵图片的真实性。所以，当将图片视为一种特殊的密钥时，基于CS的信息获取系统可同时被视为一种特殊的对称密码系统，这即是所谓的SCS。众所周知，一个密码系统由5个基本元素组成，包括明文、密文、密钥、加密和解密。图3直观地展现了CS和对称密码之间的对应关系，也就是原始信号对应明文，采样获得的测量值对应密文，测量矩阵对应密钥，采样过程对应加密过程，重构过程对应解密过程。值得注意的是，因为CS是一种有损压缩技术，解密所得的明文与原始明文注定是非一致的。此外，信息与通讯系统中的白噪声和重构算法只进行有限次迭代，而引入的重构噪声也将使解密算法不能完美地获得原始明文。
本质上，CS是一个线性映射过程。当掌握充分多的明密文对时，***者能够轻松计算出采用的某个固定测量矩阵。为了达到较高的安全级别，基于CS的对称密码系统须要频繁地更新密钥图片，甚至采用一次一密的设置。由前文可知，密钥尺寸图片是远大于明文X尺寸的。假若采用一次性的图片，每次测量都须要传输远多于采样数据的密钥数据，这反过来将致使严重的数据灾难，明显与CS的设计理念相违背。为了不直接传输大尺寸的图片，而且保持CS低复杂度采样的优点，能够尝试经过混沌系统生成混沌序列，进而用来构造测量矩阵。

图3 压缩感知与对称密码之间的对应关系

混沌是非线性动力学系统中特有的一种运动形式。混沌系统本质上是一种肯定性系统，但其呈现出非周期性和伪随机特性。一维混沌系统可表示为：

其中，f(⋅)表示某种确切的映射关系， c0为该混沌系统的初始输入值，即种子值。由以上混沌系统产生的混沌序列图片经等尺度变换和等间距抽样操做后，可获得一个长度为M×N的伪随机序列图片。按照逐列填充的方式，即可构成如下的混沌测量矩阵：

其中，σ2表示混沌序列Z(c0)的方差。由混沌理论可知，混沌系统对种子值c0十分敏感，一旦c0发生轻微变化，生成的图片将截然不同。所以，将输入混沌系统的种子值c0做为SCS的密钥，即可避免频繁更新测量矩阵带来的沉重通讯负担。值得注意的是，由于传感矩阵A必须知足RIP条件，因此并不是全部的混沌系统均适合用来构造测量矩阵。
在这里，介绍两种经常使用的混沌系统，即Logistic映射和Tent映射，它们均已被证实大几率地使传感矩阵知足RIP条件。Logistic映射可表示为：

其中，({µ,c}0)是初始输入值。当µ∈((3..556699945 6,,4]]时，Logistic映射进入混沌状态。但当µ=4时，Logistic映射被称为满映射，生成的混沌序列具备最好的伪随机特性。然而，由Logistic映射产生的混沌序列并不知足均匀分布。为了获得更好的随机特性来抵抗统计分析，须要对产生的混沌序列进行额外的非线性变换。对此，采用Tent映射能够产生近似均匀分布的混沌序列。Tent映射可表示为：

其中，初始输入值µ,c0∈(0,1)。
SCS技术的核心是在没法获知图片的状况下，恢复X是不可实现的。所以，如何保障图片的安全是最关键的任务。在安全威胁小的状况下，能够采起按期改变混沌系统的初始输入值的方案，以节约采样时间。在安全威胁大的状况下，便须要采起一次一密的加密模式。

3.2 隐私保护的大数据采集方案

大数据的发展主要受到物联网和云计算技术的驱动。物联网致力于将天然万物相互关联，构建一个普遍、有序和智能的网络环境，其依靠各类感知设备获取联网物体的信息，以数据的形式完成信息交互。面对物联网的不断扩张，时刻喷涌而出的海量数据逐步向云端迁移。据IDC预测，到2025年， 49%的全球已存储数据将驻留在公共云中。在云中心，数据能够被实时地处理和分析，而且将获得的结果及时反馈给终端用户。同时，经过集中化的数据管理机制，海量数据背后隐藏的巨大价值将被进一步挖掘，并服务于人类社会的生活、生产。
数据是一种特殊的资产，我的隐私数据尤为容易招致恶意***。目前，物联网感知设备日益轻量化，资源受限问题也愈来愈突出。在大量的物联网应用中，无线传感器网络（wireless sensor network，WSN）是最底层的信息感知方式。对于单个传感器节点来讲，可利用的资源十分有限，高复杂度的非对称密码系统经常不适合嵌入其中。SCS技术能在近乎不增长硬件成本的状况下，将保密性嵌入压缩采样的过程当中。同时，CS充分考虑了数据的冗余性，仅需远低于传统采样理论要求的样本数量即可准确地重构原始信号，这将显著下降网络中的数据量，进而有效地减轻信息与通讯系统的负担。可是本质上，CS是一个复杂度转移过程，即发送端的低功耗采样是以接收端的高复杂度重构算法为代价的。幸运的是，随着智能终端算力的不断提高和云计算技术的迅速发展，重构算法的高复杂度问题可以在云端或者终端获得有效解决。
在这里，SCS技术的广泛适用场景模型被提出，如图4所示。首先，置于感知设备物理层的伪随机数发生器根据输入的种子值（即SCS密钥）生成混沌序列，进而构造出混沌测量矩阵；而后，随机采样获得的测量值通过量化、编码后，数据流向相应的客户机，在这里可经过非对称加密算法进行二次强加密处理；接着，加密数据通过通讯基站进入公共互联网；最后，经过公共信道传输至云数据中心进行存储和处理。当受权用户须要访问原始信息时， SCS密钥被受权给可信任的云服务提供商进行重构（解密），而后将重构结果进行反馈。固然，云数据中心也能够仅发挥大数据存储的做用，发回的测量值在算力充足的智能终端上进行重构。
值得注意的是，SCS密钥在发送端和接收端之间的安全传输须要凭借安全信道或者公钥密码技术完成，它的权限掌握在合法用户或者可信任的第三方手中，而且须要被频繁地更新。在如此的应用场景下，经过基于混沌和CS的信息获取技术能够安全高效地采集数据，这极大地下降了物联网中感知设备和通讯设备的负担。

图4 安全压缩感知技术的应用场景模型

3.3 安全性分析

从密码学的角度来看，基于SCS的信息获取系统也是一种轻量级对称密码系统。根据香农对信息理论安全的定义，绝对安全的密码系统可以保障***者没法从非法窃取的密文Y中获取任何有关于明文X的信息，即知足图片。换句话说，明文X和密文Y之间的互信息为零，即知足图片。本质上，SCS是一个线性映射过程，缺少非线性混淆机制，明文X和密文Y之间存在着线性相关，没法实现信息理论安全。可是，当采用高斯随机测量矩阵时，密文Y仅暴露明文的能量信息图片，且仅密文的能量信息图片能泄露与明文X有关的信息，这种状况被称为渐进球面安全。这也意味着，能够经过隐藏密文的能量来实现信息理论安全。
面对融合混沌理论的SCS应用，***者若想获得真实的测量矩阵图片，进而从窃听的密文y中非法重构出明文，将必须面临着破解混沌密码系统或者随机猜想的困难。SCS应用在计算上的安全强度主要取决于密钥空间大小，即***者可否在有效时间内调用全部可支配的计算资源成功遍历完整个密钥空间，这种暴力***的方式对混沌密码系统来讲通常是徒劳无功的。尽管SCS缺少非线性混淆机制，但若采用一次一密的加密模式，***者依然没法经过已知信息或选择明文的***手段从可利用的明密文对中获取任何有价值的消息。

4 实验结果和分析

本节经过仿真实验简要地验证了融合混沌理论的SCS技术的可行性和安全性。本文选择512×512像素的标准Lena图做为测试对象，选择Tent映射和Logistic映射构建混沌测量矩阵，而且利用二维离散小波变换（2DWT）进行信号稀疏表示。此外，全部的实验均采用OMP算法重构信号，经过峰值信噪比（peak signalto-noise ratio，PSNR）衡量重构信号质量。须要说明的是，全部的仿真实验都在MATLAB R2015b软件中执行，而且以上实验条件的设定与SCS技术的可行性无关。

4.1 可行性

为了验证混沌测量矩阵可以发挥与传统随机测量矩阵类似的效果，本文利用Logistic映射和Tent映射构建混沌测量矩阵，而且将它们与Gaussian测量矩阵、Bernoulli测量矩阵进行实验对比。在本实验中，Logistic映射和Tent映射的初始输入值(μ,c0)分别为(0.35,0.65)和(4,0.65)，为了保证较好的伪随机特性，输出序列的前1 200位被摒弃，而且按照15位的等间距抽样得到最终的混沌序列。
由图5可知，在不一样的压缩率下，由Logistic映射、Tent映射生成的混沌测量矩阵与Gaussian测量矩阵、Bernoulli测量矩阵达到几乎相同的重构效果。这意味着，混沌测量矩阵也适用于CS技术，这样不只能够避免传输大尺寸的测量矩阵，并且能够经过混沌系统将必定水平的保密性嵌入压缩采样的过程当中。

4.2 安全性

由前文的安全性理论分析可知，SCS技术没法提供绝对的安全保障，可是其能以一种近乎零成本的方式将额外的保护层嵌入感知设备中。在这里，本文将进一步经过仿真实验展示面对暴力***时融合混沌系统的SCS技术的安全性能。在本实验中，压缩率被固定为0.5，采用Tent映射构建混沌测量矩阵。一样先摒弃输出序列的前1 200位，而后按照15位的等间距抽样得到最终的混沌序列。假定采用的密钥是(μ,c0) =(0.45,0.55)，***者猜测的虚假密钥包括(μ+Δ,c0)、(μ,c0+Δ)和(μ+Δ/2,c0+Δ/2)，其中Δ=10-16是真实密钥和猜想密钥之间的误差。

图5 不一样测量矩阵的重构效果对比

图6是原始图像和重构图像质量的对比。从图6可知，利用SCS技术加密获得的密文（即测量值，如图6（b）所示）在视觉上没法泄露任何有意义的信息。此外，尽管***者猜想的密钥与真实的密钥如此接近，可是依然没法经过它从窃听到的密文中解密出明文。

图6 原始图像和重构图像质量对比

5 结束语

在万物互联的时代，物联网中时刻生成着大量与我的隐私有关的数据，这些数据在互联网上流动以及汇向云端的过程当中容易受到恶意***。特别在一些资源受限的物联网场景下，底层信息感知设备不支持嵌入高能耗的传统密码系统，数据安全问题尤其突出。针对这种问题，本文融合混沌理论和CS理论提出了新兴的SCS技术。尽管SCS技术没法实现信息理论安全，但其能在近乎不增长任何硬件成本的状况下同步完成采样、压缩和加密3种操做。紧接着，本文给出了SCS技术广泛使用的物联网场景模型，并经过仿真实验阐述了该技术的可行性和安全性。因为SCS技术具有低能耗采样和轻量加密特性，笔者呼吁将其做为一种低成本的、内置保密性的信息获取技术，在资源受限的物联网场景下为采样数据提供第一层安全