如何解决个人基因组时代的数据隐私问题

个人基因组学的日益普及引起了人们对基因组数据隐私各种问题的关注。例如,一些个人基因组公司向制药公司出售数据,这种做法被发现缺乏透明度。快速增长的基因组数据库也引起了执法部门的兴趣,并有助于解决刑事案件。但这引起了批评,因为担心政府获取没有犯罪的个人基因组数据。对许多人来说,歧视的风险是最令人担忧的问题。在美国,《基因信息不歧视法》保护个人免受雇主和健康保险公司的歧视。然而,它不适用于人寿保险和残疾保险,也不保护人们在教育和住房等其他领域免受歧视。将来,可能会开发基因组数据的其他潜在用途。例如,个人基因组数据可能对定向广告有价值。

这些担忧可能是有道理的,因为侵犯隐私和歧视的风险已经在世界一些地方成为现实。此外,隐私问题必须得到解决,因为它们越来越阻止人们进行基因测试和与研究人员共享数据。在此,作者提出了一个面向直接消费者的个人基因组学隐私模型,并概述了多种可用于保护基因组数据的互补方法**(****表1)**。


图片来源(Grishin et al. Nature Biotechnology, 2019)


**<更多精彩,可关注微信公众号:AIPuFuBio,和大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com>

用户匿名

个人基因组公司可以让他们的客户在匿名的情况下购买基因测试。为此,比特币等密码货币可以依赖于区块链地址的进行伪匿名交易,这些地址与真实身份(如姓名、地址或银行账户)无关。过去,这种房产使隐币对黑市交易具有吸引力,并给了它们一个可疑的声誉。然而,伪匿名支付也可以促进购买合法但潜在敏感的产品和服务,如基因检测。

购买基因检测服务时,启用伪匿名支付可以消除个人面临的几个潜在漏洞。最重要的是,让个人保持伪匿名将消除个人基因组公司在数据共享前对数据识别的依赖。此外,因为不需要收集客户数据,例如姓名和信用卡信息,所以使用这种系统的个人受到安全漏洞影响的风险降低了。

然而,由于区块链地址与真实身份相关联,使用密码货币的交易并不是完全匿名的。此外,因为区块链交易的验证要求它们是公开可读的,如果知道区块链地址后面的个人身份,用户隐私可能会受到损害。一些加密货币旨在解决这一漏洞。例如,一种方法是加密公开存储在区块链上的事务,并使用所谓的零知识证明来验证它们。这种加密技术能够验证一个语句是真的,而不会泄露关于该语句本身的任何信息。这允许在不暴露发送者或接收者地址的情况下验证区块链交易。

尽管购买基因检测服务可以有效匿名,但基因组数据不能匿名,因为它们包含独特的、可遗传的遗传标记。这些信息可用于远程家庭搜索,通过将匿名受试者与身份已知的远亲联系起来,可以识别匿名受试者。因此,因为基因组数据匿名化本身不足以保护隐私,基因组数据共享必须以可控、透明和隐私保护的方式进行。


数据访问控制

个人应该完全控制他们的个人基因组数据。然而,今天DTC基因组公司有效地拥有和控制他们生产的所有基因组数据。这带来了几个风险。首先,集中式基因组数据库可能会被黑客攻破,这在过去已经发生过。其次,政府机构可以强制访问基因组数据库。第三,因为没有检查到位,个人基因组公司可能有意或无意地侵犯数据隐私。

这个问题原则上可以通过使个人能够管理其个人基因组数据的加密密钥来解决。这种方法已经被用于其他产品,如电子邮件服务无法解密和访问用户电子邮件。然而,有几个缺点。首先,如果没有备份副本,就不可能恢复加密密钥。如果用户丢失了个人基因组数据的密钥,他们将永远无法访问。其次,这种方法可能会妨碍与调查人员共享数据,因为用户必须手动批准每个数据访问请求。特别是,这可能会使访问大型基因组数据集变得实际上不可行。

委托访问控制不依赖于一方,而是多个独立的组织,这可能是安全性和可用性之间的合理折衷。为此,用于加密基因组数据的密钥可以被分成若干份,分发给多个独立的当事人;例如,研究机构**(****图1)**。密钥分割方案还可以通过使密钥共享的子集足以重建加密密钥和解密数据来引入一些冗余。多方访问控制将提供更好的保护,防止违规和滥用,因为它分发数据访问控制,因此不依赖于任何单个可信方。此外,如果接收加密密钥共享的组织位于不同的管辖区或匿名,这种方法还会阻止政府在没有获得数据所属个人同意的情况下访问基因组数据库。


记录可审计性

为了建立信任和激励基因组数据共享,数据访问请求和用户同意必须透明地传达并保持不变,这将确保可审计性并阻止滥用。这可以通过使用区块链来实现——一个由对等网络维护的不可变的公共数据库。网络参与者可以提议通过广播交易向区块链网络中的其他参与者添加新条目。只有经过大多数参与者的验证,网络才会接受新的交易。事务被捆绑成带有时间戳的块,每个块引用其前一个块,这创建了一个顺序排序,防止删除存储在区块链上的数据。

区块链可以由持有加密密钥共享并共同控制数据访问的同一组织网络来维护**(****图1)**。因此,区块链可以通过启用防篡改、可审计的记录保存来补充多方访问控制。希望访问基因组数据的研究者可以向区块链写数据访问请求,包括研究者的身份、隶属关系和研究描述。反过来,个人可以写下同意将他们的基因组数据分享给区块链。加密密钥共享的持有者可以从区块链读取这些访问权限,集体解密数据,并向授权调查员提供访问权限。

图1 | 区块链的多方数据访问控制和记录保存。对基因组数据的访问由持有分割加密密钥份额的多个独立方控制。此外,这些当事方维护一个不变和透明地存储数据访问请求和用户同意的区块链。图片来源(Grishin et al. Nature Biotechnology, 2019)

有几个利用区块链技术进行可审计记录保存的例子。例如,谷歌的子公司DeepMind开发了一个类似区块链的数据库,用于对来自英国国家卫生服务医院的临床数据进行防篡改记录。这确保了已经从患者那里获得了对任何数据的同意。另一个例子是爱沙尼亚,该国利用区块链技术跟踪130万居民的健康记录何时以及如何被获取。爱沙尼亚公民能够登录他们的电子档案,表示同意对其健康数据的各种使用。


安全数据分析

虽然在区块链上分割加密密钥和同意管理可以实现受控和可审计的数据共享,但是这些技术不能保护共享的基因组数据免受蓄意滥用。然而,通过创建分析数据的安全计算环境,可以保护共享基因组数据的隐私。几个项目已经采用了“将算法引入数据”而不是将数据传输到外部系统的想法。例如,Blockstack是一家构建通用分散计算网络的公司,该网络使用户能够提供自己的计算和存储资源,将应用程序带到数据所在的任何位置。在基因组学领域,全球基因组与健康联盟(GA4GH)信标项目也采用了类似的概念。Beacon网络是一个联邦网络由不同组织拥有的相连基因组数据库组成的生态系统。研究者可以提交查询——例如,特定基因变异的存在——然后这些查询在分散存储的数据上执行。结果被发回给调查员。

通过对基因组数据进行计算,可以保护潜在的敏感信息不被泄露给进行研究的研究者。然而,当数据被解密进行分析时,数据存储和计算服务提供商也可能侵犯隐私。全同态加密和安全多方计算是隐私保护技术,有助于应对这一挑战。这些技术使得加密数据成为可能,这样就可以像分析明文一样对数据进行分析,同时在分析过程中保持加密和保护。虽然隐私保护技术的采用受到性能不足的阻碍,但最近的进展使得执行时间和可扩展性越来越实用。例如,最近的一项研究表明,通过多种隐私保护技术的结合,可以进行可扩展的隐私保护基因组数据探索。另一项研究提出了一种用于全基因组关联研究(GWAS)的安全多方计算协议,其计算复杂度与基因组数量成线性关系,而不是二次关系。走向关注隐私的个人基因组学

以上,我们提出了DTC基因组公司可以采用的多种机制来加强对个人基因组数据的保护。然而,这些机制也构成了自我强加的限制,违背了从生成的基因组数据中提取最大价值的商业模式。一个注重隐私的个人基因组学公司能否成功将取决于消费者是否会奖励对数据隐私保护的关注。

总的趋势是,消费者越来越关注企业如何处理他们的个人数据,甚至迫使大型科技公司采取更严格的隐私政策和更复杂的数据保护机制。例如,在广泛宣传滥用之后,Facebook受到公众和监管机构的严格审查。因此,该公司宣布转向成为一个注重隐私的社交网络,并对所有通信实施端到端加密。苹果正朝着类似的方向前进,致力于构建保护客户隐私的硬件和软件,而不是收集用户数据并将其货币化。与此同时,谷歌的搜索引擎业务正面临着来自关注隐私的替代方案的日益激烈的竞争。

与利润丰厚的大型科技公司相比,大多数DTC个人基因组公司可能无法采用更注重隐私的商业模式。高客户购买成本和低利润迫使他们将数据货币化作为额外的收入来源。它已经成为证明不可持续的单位经济学的拐杖。为了减轻对数据货币化的依赖,需要开发更具吸引力的基因检测产品,以更低的客户获取成本创造更多收入。随着个人基因组初创公司不断探索以隐私为中心的商业模式,市场将很快决定基因组数据隐私的价值。