差分隐私学习总结

时间 2020-01-16

标签差分隐私学习总结繁體版

原文原文链接

1. 苹果、微软、谷歌与差分隐私的爱恨纠葛

在2016 年6 月份的苹果 WWDC 大会上苹果公司负责软件工程的高级副总裁克雷格•费德里希(Craig Federighi)在WWDC上满脸傲骄地说「We believe you should havegreat features and great privacy」，那个瞬间特别像一个小孩子，自信满满地向世界宣告「咱们就是能站着把钱赚了」。就这样，差分隐私从研究论文一跃成为科技新闻头条。其实 Google 也有尝试过相似的事情，在 GitHub 上开源了一个名为RAPPOR(Randomized Aggregatable Privacy-Preserving Ordinal Response)的项目，从原理上来讲，也是向数据中注入可控的噪音元素的方式来保护用户隐私，早在2014 年Google就以这项技术来收集用户使用Chrome浏览器时的资料。不过DP主要是由微软研究院的C. Dwork提出及发展，微软也已经在这个领域申请了很多的专利。遗憾的是，一如苹果宣称的，苹果是惟一一家将Differential Privacy做为标准大规模部署的公司。算法

2. 重大用户隐私泄露事件

过去几十年，互联网的发展完全改变了咱们的生活。网络逐渐成为人们生活的中心——网购、聊天、看新闻、查股票⋯⋯，无不经过网络进行。平常生活的网络化塑造了一个网络时代和一大批与咱们息息相关的互联网公司。这些公司每每提供优质而免费的服务，并拥有巨量用户。不过，为了提供更好的服务，或者出于其余商业目的，几乎全部的互联网公司都在尽量地记录用户的行为。这些用户数据对互联网公司来讲是珍贵的资源，由于他们能够经过机器学习和数据挖掘从中得到大量有用的信息。与此同时，用户数据亦是危险的“潘多拉之盒”：数据一旦泄漏，用户的隐私将被侵犯，同时对公司的信誉也带来莫大的伤害。近年来，咱们已经目击了多起用户隐私泄漏事件，几家大公司深陷其中；而这些事件全都是因为数据拥有者分享数据不当引发的。数据库

20 世纪最著名的用户隐私泄漏事件发生在美国马萨诸塞州。90 年代中叶，该州团体保险委员会(Group Insurance Commis-sion)决定发布州政府雇员的“通过匿名化处理的”医疗数据，以助公共医学研究。在数据发布以前，委员会对潜在的隐私问题已有所认识，所以删除了数据中全部的敏感信息，例如姓名、住址和社会安全号码(social security number)。然而 1997 年，麻省理工学院博士生拉坦娅•斯威尼(Latanya Sweeney)(现任哈佛大学教授)成功破解了这份匿名数据，并找到了时任马萨诸塞州州长威廉•威尔德(William Weld)的医疗记录，还将该记录直接寄给了州长本人。
2006 年8月4日，美国在线公司的研究部门在互联网上发布了超过65万用户在过去三个月的搜索关键字，以供公众对搜索技术进行研究。该公司对发布的数据进行了匿名化处理，但仅仅是把用户的帐号用一个随机号码代替，并无对用户所提交的搜索关键字进行任何处理。随后，《纽约时报》成功将部分数据去匿名化，并在通过当事人赞成后，公开了其中一位搜索用户的真实身份。这起隐私泄漏事件引发了人们的普遍关注，并致使美国在线公司首席技术官辞职。随后，美国在线公司由于此事件在北加州地方法院被起诉。segmentfault

网飞公司 (Netflix) 也曾深陷数据隐私泄漏的丑闻中。2006 年，网飞公司投资100万美圆举办了一个为期三年的推荐系统算法竞赛，并发布了一些用户的影评数据供参赛者测试。出于隐私保护，网飞公司在发布数据前将全部用户的我的信息移除，仅保留了每一个用户对各个电影的评分以及评分的时间戳。然而，来自德州大学奥斯汀分校的两位研究人员利用网飞用户影评数据与公开的互联网电影数据库(IMDB)用户影评数据之间的相关性，将网飞公司的一部分匿名用户与公开的IMDB用户进行了一一对应，由此得到了IMDB用户在网飞公司网站上的所有电影浏览信息（包括涉及敏感题材的电影）。为此，2009年，网飞公司遭到了4 位用户的起诉，也不得不取消了原定于2010年举行的第二届算法竞赛。浏览器

3. 隐私保护研究的目的

隐私保护研究的目标在于提出用以修改隐私数据的技术，使得修改后的数据能够安全发布(以供第三方进行研究)，而不会遭受去匿名化等隐私攻击。同时，修改后的数据要在保护隐私的前提下最大限度地保留原数据的总体信息，不然被发布的数据将毫无研究价值。具体来讲，当前的研究热点主要集中在两个方面：
(1)隐私保护技术能提供何种强度的保护，或者说可以抵御何种强度的攻击；
(2)如何在保护隐私的同时，最大限度地保留原数据中的有用信息。安全

4. 差分隐私的定义及核心技术

针对层出不穷的隐私攻击方式和现有隐私保护机制的缺陷，来自微软研究院的德沃柯(Dwork) 等人于2006年提出了差分隐私模型。差分隐私具备两个最重要的优势：(1)差分隐私严格定义了攻击者的背景知识：除了某一条记录，攻击者知晓原数据中的全部信息——这样的攻击者几乎是最强大的，而差分隐私在这种状况下依然能有效保护隐私信息；(2)差分隐私拥有严谨的统计学模型，极大地方便了数学工具的使用以及定量分析和证实。正是因为差分隐私的诸多优点，使其一出现便迅速取代了以前的隐私模型，成为隐私研究的核心，并引发理论计算机科学、数据库与数据挖掘、机器学习等多个领域的关注。网络

基本思想

上图给出了差分隐私的通常性方法。当用户(也多是潜藏的攻击者)向数据提供者提交一个查询请求时，若是数据提供者直接发布准确的查询结果，则可能致使隐私泄漏，由于用户可能会经过查询结果来反推出隐私信息。为了不这一问题，差分隐私系统要求从数据库中提炼出一个中间件，用特别设计的随机算法对中间件注入适量的噪音，获得一个带噪中间件；再由带噪中间件推导出一个带噪的查询结果，并返回给用户。这样，即便攻击者可以从带噪的结果反推获得带噪中间件，他也不可能准确推断出无噪中间件，更不可能对原数据库进行推理，从而达到了保护隐私的目的。并发

定义及统计学模型

差分隐私的定义是创建在对随机算法的约束之上的。约束的根本目的在于限制攻击者在获得带噪中间件后，对原数据库的推导能力。定义一给出了差分隐私的数学表达。框架

差分隐私定义

隐私是指我的、组织机构等实体不肯意被外部知晓的信息。例如，我的的薪资、医疗记录等。虽然出现了多种基于 -匿名和划分隐私保护框架的保护方法，而差分隐私保护技术被公认为比较严格和强健的保护模型。该保护模型的基本思想是对原始数据、对原始数据的转换或者是对统计结果添加噪音来达到隐私保护效果。该保护方法能够确保在某一数据集中插入或者删除一条记录的操做不会影响任何计算的输出结果。另外，该保护模型不关心攻击者所具备的背景知识，即便攻击者已经掌握除某一条记录以外的全部记录的信息，该记录的隐私也没法被披露。差分隐私的形式化定义以下。dom

定义1:
给定数据集和，两者互相之间至多相差一条记录，即。给定一个隐私算法，为的取值范围，若算法在数据集和上任意输出结果知足下列不等式，则知足-差分隐私。机器学习

其中，几率由算法的随机性控制，也表示隐私被披露的风险；隐私预算参数表示隐私保护程度，越小隐私保护程度越高。从定义1能够看出差分隐私技术限制了任意一条记录对算法输出结果的影响。该定义是从理论角度确保算法知足-差分隐私，而要实现差分隐私保护须要噪音机制的介入。

噪音机制

噪音机制是实现差分隐私保护的主要技术，经常使用的噪音添加机制分别为拉普拉斯机制与指数机制。而基于不一样噪音机制且知足差分隐私的算法所需噪音大小与全局敏感性(Global Sensitive)密切相关。
定义2:
对于任意一个函数，函数的全局敏感性为。其中，和至多相差一条记录，表示所映射的实数空间，表示函数的查询维度，表示度量使用的距离，一般使用来度量。