上海交通大学副教授何建平:网络系统中的数据隐私—量化、分析和设计

10月31日,万向区块链蜂巢学院联合矩阵元举办了“区块链+隐私计算与数据隐私保护”的分享活动,上海交通大学副教授何建平发表了《网络系统中的数据隐私:量化,分析和设计》的主题演讲,从隐私的量化的角度给你们介绍了保护算法分析与设计,带领你们从技术上深刻了解数据隐私保护。如下为什么建平教授演讲全文,有部分不影响原意的删减:算法

 

你们下午好,今天我演讲的题目是《网络系统中的数据隐私:量化,分析和设计》。今天的演讲主要分为四个方面:背景介绍、量化隐私、分析设计、趋势设计。数据库

 

背景介绍安全

随着互联网的发展以及各类智能设备、智能传感器的出现,咱们已经到了信息爆炸的阶段。大数据的时代已经到来,在生活当中各个领域:商业大数据、农业大数据、医疗大数据以及工业大数据。服务器

 

咱们基于大数据能够作什么事情,有了这些数据以后能够进行算法设计、优化、预测,能够进行基于数据的控制和维护等等。从工业角度来讲,能够经过大数据的分析提高工业生产的制造效率和质量,支持工业设备进行节能降耗。从互联网的思惟来看,基于数据分析能够获得用户的喜爱、偏好,能够基于这些分析的结果作一些广告的东西,商家能够更加的了解用户,最终推出用户更喜爱的产品。网络

 

大数据的实用性决定了其价值,狭义的大数据一般指的是专门用于大数据的软件、硬件及服务。咱们根据IDC和Wikibon等预测,全球的大数据核心产业规模约为200-300亿美圆,据中国信息通讯研究院预测,2017年我国大数据产业规模达到4700亿,如今还在持续的增加,增速达到30.6%,预计在今年能够达到6200亿人民币。增加速度在将来的2年内还会进一步维持。架构

 

大数据时代下,数据是一个双刃剑,给咱们带来便利的同时,固然也能够给咱们带来不少问题,最主要的问题就是隐私的问题。今年已经出现了不少隐私泄露的事件。印度10亿公民身份数据库获得攻击,这些信息都已经泄露、名字、电话号码、邮箱、指纹、虹膜等等都泄露了。今年3月份,一家英国的数据分析公司经过调查问卷的方式收集到Facebook 5000万用户的信息,用来作政治上的操做,对Facebook形成了很大的损失。一方面,互联网企业利用大数据给咱们不少用户提供了不少的便利,从我的消费者来讲,咱们享受便利的同时,也有新的担忧,就是各类隐私的信息遭到了泄露。若是利用大数据为生活带来便利的同时,利用技术手段保护用户的隐私这是一件很是有意义的事情。框架

 

大数据时代下,关于隐私有以下问题:机器学习

l  如何保护隐私?分布式

l  怎么刻画隐私保护的程度?函数

l  数据的有用性和隐私之间的关系?

l  如何防御和优化?

l  大数据下的隐私保护新技术趋势?

 

量化隐私

为了回答上述问题咱们首先须要了解隐私是如何被保护的,目前经常使用的隐私保护方法主要有两大类,加密加噪声

 

加密主要是指以算法的形式改变原有的信息数据,将明文进行加密处理后进行发送,收到数据的一方用已掌握的密钥对密文解密,从而还原出原始数据。未被受权的用户即便收到了信息,因为没有掌握密钥仍然没法得到原始数据。加密一般有两种,一种是对称加密,第二种是非对称加密。对称加密中加解密使用相同密钥,非对称加密中加解密使用不一样密钥。可是加密方式存在一些问题,密钥有可能被丢,对称加密算法简单但容易破解,非对称复杂性高,可是要用数据的时候效率很是低。

 

另外一种隐私保护方法是加噪声。这种保护隐私的方式有其优势:首先,它具备量化标准来评价隐私保护的等级;并且,经过设计噪声添加机制,在保护隐私的基础上能够保证数据的可用性。常见的添加的噪声有:拉普拉斯噪声、高斯噪声、均匀噪声,下图是它们的分布状况:

 

我我的比较喜欢加噪法,数据永远掌握在本身手里最安全的。加密你要用的话确定要有一个解密的方法,一旦这个解密的方法泄露出去了,别人老是能看到的。

 

差分隐私

2006年C.Dwork提出差分隐私的概念,为隐私保护提供了一种量化评估方法。

 

若ϵ为一正实数,A为某一随机算法,若是对于两个只相差一个元素的相邻数据库D1和D2,以及全部的SRange(A),存在:

那么随机算法A能够实现ϵ-差分隐私,这里Range(A)表明随机算法A 的输出范围。

 

以下图,假设X和Y是比较近似的两个数据,A是你要去保护的技术,你是隐私保护的方法,在A做用下之后,两个数据的输出,给你们能够看到的O应该是差很少的,在这种状况下咱们称之为随机保护的机制是差分隐私。差分隐私已经被苹果、谷歌公司应用于它们的产品当中来保护用户隐私。

 

分析设计

英国数据公司Cambridge Analytica经过调查申请收集了Facebook用户的信息,并将其滥用于政治目的,超过8000万Facebook用户的我的资料受到威胁,这一丑闻曝光后,Facebook损失了数百亿美圆。这个事情背后的缘由是:

l  第三方服务请求过多信息

l  用户不知道共享信息的潜在威胁

 

究其缘由主要是这两点,针对这样一个事情,咱们设计了一个全新的第三方信息共享的框架。咱们的研究目标是经过控制与第三方共享的信息,最大限度地实现隐私保障下地安全自我信息披露,所谓自我隐私披露指的是我为了享受社交网络带给个人正常的服务而愿意暴露的我的信息,为了经过巧妙地隐藏用户信息有效下降推理攻击的准确,减小对用户体验的损害,知足不一样用户的隐私问题,咱们提出了两种隐私保护数据共享算法,EPPD和D-KP,分别侧重于最大化用户体验和下降计算复杂度。

 

以下图所示是咱们的系统实现的展现,在原有的第三方系统认证OAuth2基础上引入了咱们的隐私保护算法。左图咱们给用户提供了一个对第三方服务信任度选择的接口,而且清楚的告诉用户第三方所请求的各项服务,方便用户决定暴露多少的我的信息。

 

经过在实际的数据集上仿真,咱们能够看出引入了咱们提出的算法以后可以大大下降推理攻击,对于机器学习推测用户习惯,咱们的算法大大下降了常见分类器的准确性,保证了就算攻击者在一个应用上学习到了个人一些用户习惯,也不能如法炮制到下一个软件。可见咱们的算法在最大限度地提升用户数据公开度的基础上提供了更强的隐私保护。

 

随着大型互联网系统的快速发展,各类灵活多变的系统架构模型层出不穷,主要分为集中式和分布式两大类:

l  集中式:依赖中心节点,一旦中心节点遭到攻击,整个系统性能都会受到影响,可拓展性差

l  分布式:不存在中心化的节点,任意节点的权利和义务都是均等的,系统中的数据块由整个系统中具备维护功能的节点来共同维护,任一节点中止工做都会不影响系统总体的运做 

 

分布式数据统计正是分布式系统的重大应用之一。与传统的数据统计不一样:分布式数据利用分布式技术对数据进行统计和学习,将原先集中在单节点上的庞大计算任务均衡的分派给若干台可相互通讯的计算机上并行处理。分布式数据统计提供异构的隐私保护一致性框架,这种方法既能准确统计结果,又量身定制般地为每一个用户的隐私不一样程度地保护。

 

咱们提出了两阶段框架。首先将用户分为不一样小组,白色节点表示数据服务器,N个数据服务器构建成分布式网络。一个数据服务器负责从一组用户中收集数据。

 

阶段一:服务器搜集用户数据

不一样的数据服务器从不一样的用户组收集私有数据,从用户的角度考虑,用户认为直接上传数据的服务器有泄密风险,所以在数据报告以前,用户首先用高斯噪声扰乱其数据。而噪声方差由用户的隐私需求决定。

 

阶段二,服务器协做统计数据

当全部服务器完成数据聚合后,如何统计整个用户群体的结果呢?服务器网络执行一致性算法,在一致性过程当中,服务器节点要将本身的信息释放出去得到相邻服务器节点的信息从而更新自身的状态。

 

下图显示了框架的整个工做流程。

 

首先,节点向服务器报告具备高斯噪声扰动的数据, 至关于一层防火墙。加噪聚合后,收集节点数据的服务器提供的用户隐私保护度增大,至关于自动加强了防火墙 。最后,多个服务器协做执行共识计算。

 

总的来讲,咱们的异构隐私保护方案有三大优势: 用户上传,安全聚合以及共识计算。

 

咱们该如何选择添加的噪声以知足用户的我的隐私需求,而且保证数据发布的效用行呢?为了研究这一问题,咱们首先须要对问题建模。

 

在模型一中,咱们站在数据收集方考虑,既须要保证用户的隐私确保用户还愿意给本身提供数据,同时须要保证数据的可用性,故而目标函数创建为隐私和效用性的加权。

 

模型二中,咱们考虑在实际生活中,隐私是我的的标准,每一个人可能有不一样的隐私保护需求,当达到必定的隐私保护水平后,如何最大化数据的效用性是具备实际指导意义的,故而咱们将目标函数设置为数据的效用性,限制条件为每一个人不一样的隐私保护要求。

 

对上述两种模型咱们经过必定合理的假设并给出结论,为了获得最优的总体效益(最大化隐私保护和可用性之和)的噪声是均匀噪声。在保证必定隐私的状况下,为了获得最大的数据发布可用性的噪声添加机制是均匀离散噪声,以下图所示:

 

趋势分析

区块链做为一种特殊的分布式数据库,是没有管理员的,完全无中心的,一个个相连的区块(block)组成。区块很像数据库的记录,每次写入数据,就是建立一个区块,是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。之前是靠信誉、靠百年老店、权威机构等,区块链利用技术创建了新的信任方式,这是能够被量化的,从技术的角度实现的,因此说区块链成为了下一个信任的基石。目前区块链的隐私性主要经过匿名方式来保证,然而这种方式有可能被破解——对公开的交易帐本信息进行资金流分析。

 

怎么样完善这个机制呢?固然有一些新的机制出来:

l  P2P混合机制:若干用户签定协议,将多个交易混合成一个标准的交易,将多个提供者和接收者分别随机排序,咱们也没法知道某一笔资金是从哪个代号流入到哪个代号。经过破坏交易的连续性,可以使得创建代号之间的关联更为困难。

l  分布式混淆网络:多个用户都会和某一个第三方机构达成以下协议:我先交付给该机构10个币,过一段时间后,该机构会返还给我10个币。经过这种方式,外部人员很难捕获交易之间的关联信息。可是,这种方式也面临着第三方机构不归还资金的风险。

l  零知识证实:资金提供者并不须要经过提供本身的身份信息来验证资金的有效性,而只需证实该笔资金属于一个有效资金的公共列表。

 

如何在区块链中知足我的、企业、政府等对保护数据隐私要求,推进区块链技术规模化落地应用必需要解决的难题。

 

蜂巢学院简介:

「蜂巢学院」是万向区块链倾力打造的线下活动品牌,持续关注区块链相关领域前沿技术与热点话题。汇聚全球范围内最具影响力的意见领袖、行业先锋、创业达人、专家学者等,经过小范围的面对面深度交流,力求记录全新科技改变咱们所生活时代的每个重要瞬间。而时代的浪潮之中,面对无限可能的将来,咱们每个人,都是求知者和见证者。

相关文章
相关标签/搜索