论文精读笔记与思考：An Efficient Privacy-Preserving Outsourced Calculation Toolkits with Multiple Keys

时间 2021-08-12

标签 html 算法数据库安全服务器 markdown 机器学习分布式 ide 函数栏目兴趣爱好繁體版

原文原文链接

精读安全外包计算1——笔记与思考

系统模型

系统模型图

系统参与实体介绍

一、KGC：
可信的密钥生成中心，它负责分发全部实体（K1个DPs和K2个RUs的弱密钥对）。而后计算全部DPi的聚合公钥 $pk_{\varSigma}$ 再发送给CP和CSP。而后用模数 $N$ 的卡迈克尔函数值 $SK=\lambda$ 做为系统强密钥（便可以对任何密文消息进行解密），再将其随机拆分红， $SK_1=\lambda _1$ 和 $SK_2=\lambda _1$ ，知足条件：html

$\lambda _1+\lambda _1\equiv 0 \left( mod\,\,\lambda \right) \\ \lambda _1+\lambda _1\,\,\,\,\equiv 1 \left( mod\,\,N^2 \right)$ 算法

二、DPs:
DPs是数据提供商的集合，在医疗大数据模型下，DPs能够是医疗机构，他们掌握着大量的医疗数据和对应的诊断结果。DPi会将本身的数据集用本身的公钥加密而后上传到云平台CP。数据库

三、RUs：
RUs是向CP发起请求的用户集合，可是在本文方案中，是端到端通讯模型，因此通常是单个用户RUi用本身的公钥对本身的病症加密，再发给CP，向CP请求获得诊断结果。安全

四、CP：
CP是距离客户端（DPs和RUs）最近的服务器，它直面多源密态数据。因为数据是不一样用户用不一样公钥加密的，例如： $\left[ x \right] _{pk_a}$ 和 $\left[ x \right] _{pk_b}$ ，通常的密码算法是没法对不一样公钥加密的数据进行计算的。此时就须要依赖“同态加密”技术，让CP在没有数据访问权的状况下持有数据操做权。可是本文的方案是基于加法同态的（相似Paillier方案），因此还须要依赖另外一个服务器CSP。服务器

首先CP会利用同态性对数据进行同态处理，这部分的工做通常是对隐私信息进行匿名保护。通常的方法是加入随机数 $r$ ，可是须要主要这个 $r$ 必定要可以在后续的同态计算中消去。而后再利用部分密钥 $SK_1$ 对消息进行部分解密，再发给CSP。markdown

五、CSP：
CSP是计算服务提供商，它负责利用 $SK_2$ 对部分解密的密文消息进行全解密，此时获得的是明文，可是这个明文是被CP匿名保护后的明文，因此CSP仍然不可能获得数据拥有者的隐私信息！机器学习

拿到明文后，CSP能够进行任何运算，由于此时是在明文下计算。本文这样设计的好处就是利用CSP去避免半同态加密的计算局限性！分布式

任何在计算结束后，CSP利用聚合公钥 $pk_{\varSigma}$ 对处理后的数据进行重加密，而后发送给CP。而后CP再利用同态性，把 $pk_{\varSigma}$ 加密的消息中的噪音（随机数）消去。ide

分布式双服务器的好处

因为强密钥 $S K$ 可以对任何用户加密后的密文进行解密，从而***、恶意访问到用户的隐私。而一台服务器是有可能被敌手攻陷的，可是两台服务器对敌手来讲难度就很大了，几乎不可能完成。若是让一台服务器拥有强私钥 $S K$ ，则这台服务器能力太大，如若被***后果不堪设想，任何再委托CSP辅助计算，专门担任计算服务提供商。这样的设计是很好的，值得学习！函数

问题陈述

数据格式

本文提供的问题描述，DPs的数据属于结构化数据（二维表、关系型数据库），而请求用户RU是但愿经过大数据算法、机器学习算法获取这些数据的统计学信息。

（疑惑点）数据格式的思考笔记

如今的大数据，结构化数据占比愈来愈少，绝大多数都是非结构化数据！若是是非结构化数据，那么如何在数据格式上安全处理呢？本文未提到数据格式处理的方案，可是大数据算法主要的时间开销就是在数据格式上！（来自Hadoop课所学，若是有误，还请指教！）

分布式双陷门密码体制

原文描述的密码体制

（不严谨）我以为可能会形成解密失败的算法

（不严谨）我以为解密失败的缘由，还请大佬指正

在密钥生成阶段(KeyGen)， $\lambda =lcm\left( p-1,q-1 \right) /2$ ，计算的结果是 $\lambda =p^{\prime}q^{\prime}$ 。而真正的，模数 $N$ 的卡迈克尔函数应该是：
$\lambda \left( N \right) =lcm\left( \lambda \left( p \right) ,\lambda \left( q \right) \right) =2p^{\prime}q^{\prime}$
很显然，这里的卡迈克尔函数并非密钥生成阶段(KeyGen)的 $\lambda$ ，然后续的加解密须要依赖卡迈克尔函数的性质，不然可能没法保障能正确解密！

卡迈克尔函数的笔记

一、卡迈克尔函数的定义

从上面的定义能够看出，卡迈克尔函数是是和指数息息相关的！由于卡迈克尔函数是最小的指数，所以其余指数必定是卡迈克尔函数的倍数。

二、我对卡迈克尔定理的证实

定理描述：
已知 $n=n_1\times n_2$ ，且 $\left( n_1,n_2 \right) =1$ ，则： $\lambda \left( n \right) =\left[ \lambda \left( n_1 \right) ,\lambda \left( n_1 \right) \right]$

证实：
由卡迈克尔函数的定义，得：
$g^{\lambda \left( n \right)}\equiv 1 \left( mod\,\,n \right)$
因此：
$g^{\lambda \left( n \right)}=kn+1$
又由于： $n=n_1\times n_2$ ，因此：
$g^{\lambda \left( n \right)}=kn_1n_2+1$
此时，分别对 $g^{\lambda \left( n \right)}$ 模 $n_1$ 和 $n_2$ ，获得：
$\begin{cases} g^{\lambda \left( n \right)}\equiv 1 \left( mod\,\,n_1 \right)\\ g^{\lambda \left( n \right)}\equiv 1 \left( mod\,\,n_2 \right)\\ \end{cases}$
又由于：
$g^{\lambda \left( n_1 \right)}\equiv 1 \left( mod\,\,n_1 \right)$
因此：
$\lambda \left( n \right)=k_1\lambda \left( n_1 \right)$
同理：
$\lambda \left( n \right)=k_2\lambda \left( n_2 \right)$
因此：
$\left[ \lambda \left( n_1 \right) , \lambda \left( n_2 \right) \right] \,\,|\,\, \lambda \left( n \right)$
也就是说， $\lambda \left( n \right)$ 是 $\lambda \left( n_1 \right)$ 和 $\lambda \left( n_2 \right)$ 的公倍数，假设任意一个公倍数是：
$M=k_1\lambda \left( n_1 \right)=k_2\lambda \left( n_2 \right)$
因而，有：
$\begin{cases} g^{M}\equiv 1 \left( mod\,\,n_1 \right)\\ g^{M}\equiv 1 \left( mod\,\,n_2 \right)\\ \end{cases}$
又由于： $\left( n_1,n_2 \right) =1$ ，根据中国剩余定理，获得：
$g^{M}\equiv 1 \left( mod\,\,n \right)$
因此，任意的 $\lambda \left( n_1 \right)$ 和 $\lambda \left( n_2 \right)$ 的公倍数 $M$ 都是 $\lambda \left( n \right)$ 的倍数，因此：
$\lambda \left( n \right) =\left[ \lambda \left( n_1 \right) ,\lambda \left( n_1 \right) \right]$
成立！证毕！

三、迈克尔函数的性质

大括号的第一个等式是卡迈克尔函数的性值，很少赘述，而后第二个等式证实以下：

证实：
由于， $w^{\lambda}\equiv 1 \left( mod\,\,n \right)$ 成立，因而等价于：
$w^{\lambda}=kn+1$
因此：
$w^{n\lambda}=\left( kn+1 \right) ^n \\ \,\,\,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, =C_{n}^{0}\left( kn \right) ^01^n+C_{n}^{1}\left( kn \right) ^11^{n-1}+… \\ \,\,\,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, \,\, =1+n^2\times \left( … \right)$
因此， $w^{n\lambda}\equiv 1 \left( mod\,\,n^2 \right)$ 成立，证毕！

四、卡迈克尔函数的总结

卡迈克尔函数是构造Paillier方案的核心数论基础，从本文的方案也显而易见，几乎全部的密码操做、任何加解密，都须要依赖卡迈克尔函数！

本文中数学不严谨的地方也正是体如今这里， $\lambda$ 不是正确的卡迈克尔函数，后续的解密、加密操做都不能保障正确性！

隐私保护下的整型计算包

一、加法同态性在本文中的应用

$\left[ x \right] _{pk}\cdot \left[ y \right] _{pk}=\left[ x+y \right] _{pk}$

$\left[ x \right] _{pk}^{N-1}=\left[ \left( N-1 \right) x \right] _{pk}=\left[ -x \right] _{pk}$

二、安全加法协议

协议分析：
首先来自DPa和DPb的数据[x]和[y]是不一样公钥加密的，而后CP是外包存储方，因而CP拥有他们的密态数据。CP首先选取两个随机数，经过同态性质，来对明文x和y进行隐藏。而后利用部分强密钥解密，获得部分解密密文，发给CSP。

而后CSP经过属于它的部分强密钥解密获得隐藏后的明文，好比：x+y+ra+rb，而后这就完成了加法运算了！再用联合公钥（此时的联合公钥是包含了请求发起者的公钥的！）加密，再发给CP。

CP再次利用同态性，把噪声ra+rb去掉，而后把密文发给请求用户RU。请求用户，调用下面的算法进行解密，获得本身须要的SAD结果：

其中联合公钥如咱们所分析，是带上请求用户的公钥信息的：

安全加法协议的安全问题

一、在没有身份认证的状况下，敌手RU能够伪造一个DPi存储[0]而后联合DPj的密文[x]向服务器发起SAD的请求，这样会获得[0+x]的明文，也就是明文x。这样DPj的隐私数据就泄露了。

二、在本文后面加上了一个身份认证，可是我以为有点含糊，并无详细的身份认证协议。仍然是有很多漏洞的，好比“欺骗***”。

三、安全符号位查询协议

个人诸多疑惑，关于这个安全查询符号协议以及后续协议

一、在Step1，为什么须要经过翻硬币，来肯定 $l$ 的形式？？？

二、在Step2，假设 $l = r (2 x + 1)$ ，那么：
$L (l) = L (r) + L (x) + 1 < = 3 / 8 L (N) + 1$
那么如此以来怎么判断是否是符合 $L (l) < 3 / 8 L (N)$ ？？？仍是说个人理解有错误？

尤为是在 $l = - r (2 x + 1)$ 的时候， $l$ 是一个负数，根据计算机的补码表示，最高位符号位是1，那么它的比特长度应该是定值呀？？？请赐教，感谢！

启发与参考文献

关于系统模型

本文系统模型双服务器的思路我以为很棒，是值得学习的！哪怕加入了全同态，兴许也能够利用双服务器的思路去分担计算！只是须要加入身份认证协议，来保证信息传输的安全。

关于安全协议

本文的安全协议设计的是计算轻量级的加法同态方案，它其实不针对任何机器学习的算法、大数据算法，而是为这些算法的实现提供了高效的计算包，至关因而提供了高效安全的计算原语。

可是我以为一个地方不太好，那就也是由系统模型带来的问题，我以为须要对CP和CSP进行身份认证，而后RU也须要有身份管理和认证的中心，不然安全性仍是不佳？

几种计算的设计思路仍是很好的，很是值得借鉴！并且系统的生成元的设计也不错，可是我以为把 $g=-a^{2N}$ 改为 $g=a^{2N}$ 会更好！由于此处的卡迈克尔函数值拥有是偶数，-1这个系数我认为能够去掉，固然在这里无伤大雅！

参考文献

[1] X. Liu, R. H. Deng, K.-K. R. Choo, and J. Weng, “An efficient privacy-preserving outsourced calculation toolkit with multiple keys,” IEEE Trans. Inf. Forensics Security, vol. 11, no. 11, pp. 2401–2414, Nov. 2016.
[2] P. Paillier, “Public-key cryptosystems based on composite degree residuosity classes,” in Proc. Int. Conf. Theory Appl. Cryptograph. Techn.,1999, pp. 223–238.

Update

忘了更新了，上面我提出的思考问题以及一些数学/安全上不严谨的问题，我都已经获得本身满意的理解了。若是有大佬有新的想法，欢迎探讨~

不算什么很大的问题，我就不列出来了~