应学习之需,最近一段时间阅读了一篇论文,特写下总结,如有纰漏,还望指出。算法
目录安全
1.1 为何要了解移动用户的隐私指望服务器
一、移动设备的普遍使用存在一些潜在的隐私威胁和信息泄漏。 架构
二、系统供应商针对这个问题已经提出了相应措施,例如:苹果的iOS系统可让用户控制应用是否能够访问特定的敏感数据源。Android平台一样也有相似的细粒度权限控制机制。然而,存在自身缺点:不包括全部的用户都具有知识背景可以正确地进行隐私配置。同时是一项乏味且具备挑战性的工做。用户体验不高。 框架
三、没有一个简单的规则能够知足全部对于隐私的要求,有些人可能愿意为更好的服务和体验提供一些信息,而另外一些人可能不肯意由于隐私问题而分享敏感数据。为了达到每一个用户的最佳平衡,理解他们对隐私的指望,并帮助他们相应地设置隐私许可显得相当重要。这也是之因此不采用后面讲到的安全专家建议的缘由。函数
1.2 什么是Crowdsourcing方法和PriWe系统学习
此方法基于一些关键的看法,即用户如何决定为某个应用程序授予权限的: spa
一、这一决定取决于用户的特定隐私偏好或关注(与后面提到的“基于用户”相对应); 设计
二、这一决定与用户对某些应用的指望有关(与后面提到的“基于事项”相对应)。 3d
文章提出的方法首先是在用户对应用的隐私偏好和隐私指望之间进行比较,而后根据这些类似性向用户推荐合适的权限设置。方法背后的基本原理是:那些在某些私人数据和/或隐私指望有相似偏好的用户更有可能在相关的隐私项目中做出相似的决定。追求可用性和隐私之间的平衡。
PriWe架构:首先,PriWe能够帮助用户在本身的智能手机上对隐私设置做出更好的决策。其次,因为智能手机的功能有限,分析Crowdsourcing数据和生成建议的过程应该在服务器上完成。以下图所示:
服务器端有两个关键组件:
一、对手机到的数据进行预处理,好比验证和分类;
二、针对不一样用户的各类移动应用程序的建议。
2.1 基本思想
传统的推荐系统旨在向一些电子商务市场的客户推荐具备吸引力和感兴趣的商品。所以,每一个用户对应一个客户,而且每一个隐私设置被映射到一种商品。
Collaborative filtering算法两个主要类别:memory-based and model-based方法。“基于用户”和“基于事项”是memory-based方法的两种关键算法。memory-based算法有如下几种优点:
一、非参数化方法,较少依赖于假定的模型;
二、很容易被推广到更高的维度,容易计算和理解;
三、用户和项目数量上都更加健壮;
四、要求参数数量少,而且计算速度快。
2.2 Item- and user-based collaborative filtering
咱们假设有k个用户,每一个用户都有m个应用程序。每一个应用程序都有n个数据访问权限。定义ri,a,g做为用户i设置的设置的应用程序a的数据权限g。二分变量{0,1},whereri,a,g=0(表示用户不喜欢与任何人分享数据);whereri,a,g=1(表示参与者容许公开信息)
Example 1:两个用户,i和j,都安装了两个应用a,b,每一个应用都有两个权限g,h。用户i和j都容许应用a经过设置ri,a,g=1&ri,a,h=1和rj,a,g=1&rj,a,h=1来获取数据权限。在这种状况下,咱们认为他们可能有相似的隐私偏好。若是用户i设置ri,a,g=0来组织应用程序b的访问权限g,用户j在这个设置上可能会有相同的选择。
Example 2:应用a’和b’,都安装在由用户i’和用户j’携带的智能手机上。应用a’和b’分别持有权限g’和h’。若是用户i’和j’都拒绝数据访问,即设置ri’,a’,g’=0&ri’,b’,h’=0和rj’,a’,g’=0&rj’,a’,h’=0。咱们就认为这两个项目具备类似性。
咱们定义su(i,j)做为用户i和j的类似度,基于皮尔森相关系数计算su(i,j)。可能的类似性值在-1和+1之间,值接近+1表示强烈的类似性。PriWe根据用户基本信息将用户为不一样的组。
咱们经过应用阈值或top-N策略获得类似用户集:
一样,咱们定义si(g,h)做为隐私权限g和h的类似度。咱们采用了类似度的余弦类似度来计算用户的平均设置行为的差别。
2.3 probabilistic-based similarity fusion框架
基本思想:基于概略为两个类似度su(i,j)、si(g,h)提供不一样的权重,相应地结合。
为了下降影响,经过删除平均值将收集的结果标准化:
咱们定义了一个关于隐私设置的空间样本。在咱们的案例中实际上有3项,
。
表示未知的隐私设置;0意味着用户关注信息是私有的;1表示用户容许信息的披露。定义
做为用户x在应用y的许可z上做出决定的条件几率。
咱们能够根据集合中规范化的隐私设置获得条件几率:
咱们引入了两个独立二元指示器I1和I2表示集US和IS的依赖关系。I1=1表示对集US依赖。I2=0表示独立性。
使用欧氏距离产生类似函数:
结合上面的条件几率估计获得结果:
where
3.1 PriWe App
两个主要目标:一、提供一些用户设置或更改权限设置相关隐私的输入组件;二、接收服务器生成的推荐,在用户确认的基础上可以自动进行推荐设置。用户能够浏览安装的应用及授予的权限。咱们总结了11种滥用数据安卓应用的权限而且讨论了它们的风险。
PriWe应用程序须要root权限,或者做为系统级进程运行。不建议用户root他们的智能手机。
3.2 PriWe Server
服务器设计用来分析收集到的数据而且相应的生成推荐。服务器有三个关键的组件,数据预处理、推荐生成、展现和强化。
4 评估
推荐算法的准确行(有效性),Rp表示实验过程当中参与者全部的隐私设置,Ri表明了PriWe提供的相应的隐私权限设置的建议。
结果代表,基于问卷调查A和B的结果比基于问卷调查A或B的结果更好。这代表当数据集由更多的crowdsourced权限设置组成时,这些建议能够达到更高的准确率。两项调查的结合也能在必定程度上克服数据稀疏问题。
结果显示特征:一、由PriWe提供给男性参与者的准确度比女性要高一些;二、随着参与者年龄的增加,精准度会逐渐提升;三、对于有信息技术背景的参与者来讲,对参与者的建议的准确性要高于全部被选中的参与者。
5. 心得
PriWe系统旨在理解用户对隐私的指望,并对其安装的移动应用的隐私设置提出建议,以知足用户的隐私指望,并可以被用户接受,从而帮助他们在智能手机应用程序中减轻隐私泄漏。在这个信息化时代,智能手机中存储着大量我的信息和敏感信息,所以,隐私保护就显得尤其重要,咱们平常在使用智能手机的过程当中都会遇到我的隐私泄漏的困扰,本篇论文针对这个问题提出来了解决方案。