高文、张钹、杨强隔空论道:AI精度与隐私的博弈

出品 | AI科技大本营(ID:rgznai100)
php

AI时代,如何保护大众的隐私?以联邦学习为表明的AI技术可否实现AI协做,提高模型精度的同时,实现数据隐私的保护?中国如何抢占人工智能安全发展的制高点?下一个十年,人工智能又将何去何从?算法

近日,在“2020北京智源大会”上,就上述AI发展所存在的问题,如下AI专家从不一样角度进行了讨论。安全

主持人:唐杰清华大学教授、智源研究院学术副院长微信

              刘知远,清华大学副教授、智源学者网络

嘉宾
框架

高文,中国工程院院士、智源研究院学术顾问委员会委员分布式

张钹,中国科学院院士、智源研究院学术顾问委员会主席ide

杨强,香港科技大学教授、微众银行CAIO函数

如下为论坛实录,内容由AI科技大本营(ID:rgznai100)整理:工具

AI精度与隐私保护

唐杰:先从数据隐私之忧谈起,提高模型精度是否必定要牺牲隐私保护?如何在提高模型精度的同时实现智能、精度以及隐私保护?   

 

张钹:人工智能和隐私保护的关系,其实是涉及技术和隐私保护的关系。一方面,我的的信息不被误用和滥用,这属于人工智能的制度问题。第二方面,咱们怎么利用技术手段来保护我的隐私,或者团体的隐私,包括数据安全等等。

   

高文:张老师已经说得很清楚了,隐私保护和技术自己的发展关联性很强,若是隐私保护不出太多问题,不须要太多的技术来作(保护),若是隐私保护作得很差的话,就须要技术上更多的想一些办法去提供保护。隐私保护自己实际上是一个社会学范畴的问题,随着圈子的扩大,隐私就愈来愈少了。隐私是相对的概念,在不一样的圈子里,隐私可能掌握的程度是不同的。

 

如今隐私保护比较急的是,一方面咱们尽量从技术方面能作一些贡献,同时社会的伦理方面也要尽快立法,如今也有一些,可是我认为还不够。凡是获得的数据没有通过本人的承认,把进入入商业领域,这就是犯法,若是立刻就处罚,这可能就会好一点。

 

杨强:隐私的问题,一直就是人工智能的一个短板,咱们看到最近大火的深度学习,尤为是离不开大数据,大数据都是经过购买和聚合不一样的数据源来得到的,这或多或少会侵犯到用户隐私,因此咱们看到深度学习的精度,随着数据量的增长会提升,同时对隐私的威胁也会增长。

 

近年也看到,欧洲提出GDPR,国内也有相关的数据法规。一方面,能够看到这样的隐私保护法确实为咱们作人工智能和大数据提供了不少不便的地方,但同时也是个激励,来帮助咱们发展下一代既能保护隐私,又能提升技术的方法。广大的人工智能研究者正在把联邦学习,还有多方安全计算,还有差分隐私等等加以聚合,造成一整套新的AI算法。

   

刘知远:针对数据隐私愈发愈烈的趋势,接下来的技术突围之道是什么,以联邦学习为表明的AI新技术,可否解决大数据AI协做与数据隐私保护之间的矛盾?这些技术的优点与局限性有哪些?如何让更多的人来参与到这些技术的创新中来,是经过开源,仍是其余的激励机制?

 

高文:技术是一方面,并且用什么技术,都是能够探讨的,我比较同意的作法,百花齐放,作隐私保护技术的,要尽他们的所能去寻找最好的技术,让隐私可以获得最好的保护。

 

另一方面是社会的诚信,如今若是你要想整个技术和社会可以和谐的快速发展,诚信是很是重要的。咱们已经进入了很是规范的发展时期,一方面是应该把我的隐私数据保护的技术发展好,同时还应该关注在咱们的系统里面,对数据自己的恶用,可能也可以下降到必定的水平。

 

张钹:我很是同意刚才高老师说的一些观点,咱们必须问一个问题,为何要去保护隐私,这个目的必需要想清楚。从西方来说,他把隐私的问题做为一个价值观提出来,认为这是绝对的,我的信息,只要不经本人许可,任何状况下,其余人都无权收集、无权利用、无权传播。这个看起来好像颇有道理,可是我以为技术发展到今天,这个见解是不全面的。

 

好比有一条街道,可能常常会发生盗窃,发生不安全问题,咱们须要装一个监控识别,来保护你们的利益,也保护我的的利益,这样来防止不安全。按照西方的观点,若是有一个用户不同意你装,就不能装。可是按照东方人的观点来看,装不装摄像头,应该既从我的利益,也要从大众利益来考虑问题,咱们国家按照东方人的价值观,以为应该装,这对于你们是安全的。

 

装或者不装,关键的问题就在于我的的信息不要被滥用,只要保证了这一条,我以为这样就好了,这个问题在中国来说,就显得比较简单,在西方,就把这个问题变得很是复杂。为何要保护隐私,这个问题想清楚了,不少问题就容易解决。

刘知远:杨强老师自己做为联邦学习表明方向的提出者,如何利用这些技术,协同大数据AI和隐私保护之间的矛盾,您有什么观点?

   

杨强:我来介绍一下联邦学习的基本思想,其实这个技术的出现,是由于多种不一样技术的聚合,一种是人工智能,一种是多方安全计算,一种是加密技术,一种是大规模分布式计算。联邦学习技术推广到企业之后,假设有两个公司想合做,数据能够是两边是在作一个决策树,左边的树是在一个企业,右边的树是在另一个企业,训练的时候,你们也是经过加密技术,本身全部的那一部分的模型,在使用的时候,好比说新的数据来了,他们也须要经过加密,或者是交互的机制,来保证可以获得信息,而且可以保护隐私,既能保证训练时的用户隐私,又能保证在inference时候的用户隐私。

 

联邦学习在各位同仁的推进下,推广到不少的算法,好比说深度学习算法、逻辑回归算法等等,有不少种如今大规模的算法,这个领域也是很是活跃的。从这个发展过程咱们就能够看到,这个技术确实在近几年,发展得很是快,to C和to B两大领域都有所发展。

 

这里要提到的一点,高文院士一直倡导的人工智能技术须要开源,为何对于联邦学习这种技术开源尤为重要呢?由于咱们是须要多方协做的,协做的过程中,每个参与方都要保证拿到的这个软件是没有后门的,没有秘密数据隐私的渠道,最好的方法就是让你们公开,去检查开源的模型,集大众的力量来保证这个开源软件是安全的,开源和联邦学习是分不开的。

 

唐杰:您提到联邦学习要进行数据加密后,传递这个模型,那若是假设有一方把恶意的数据传递过来怎么办?怎么能保证在传递数据或者是传递模型的过程中,不被恶意攻击呢?

 

杨强:这也是如今联邦学习的一个部分,叫对抗机制。某个参与方若是是恶意的,好比说他能够经过传递的加密参数去猜数据,同时也有多是在数据里面搀假,加一些恶意的机制,使得总的模型的朝着对他有益的方向发展。

 

有什么办法解决呢?一个是你们能够不用差分隐私,而用比较严格的同态加密办法。第二,即便在差分隐私的状况下,噪音的加法能够用一种特别的机制来加,以致于对方是猜不透你我的所拥有的数据。因此这种破绽的发现,也激励你们去发现新的算法,应该说是道高一尺,魔高一丈,永远没有结束的那一天。

   

唐杰:还有一个问题,高老师也提到了开源的重要性,也许开源是解决隐私之道的一个办法,能在开源上多解释下吗?

   

高文:开源做为一种软件,或者是做为一种这种创造新工具的方法,很是值得推崇。前些年,软件从有拷贝开始,到如今彻底开源了,开源之后并非模型就没有了,而是转换了。如今发现,在人工智能里,通过开源,一些大公司也作得有声有色。因此在商业模型解决之后,到底哪种方法对技术发展最有效?其实咱们仍是看结果。

 

从人工智能来讲,开源确定是全部方法里面,大概效率最高的一种方法。 

 

说到联邦学习,既然是在作人工智能,固然用开源的方法是比较有效的,这个逻辑关系很是简单。我很同意杨教授说的,任何的技术不可能一下把全部的问题都解决掉,不可能把全部的弱点都提早想明白,这和对攻式的发展是同样的。也不用太担忧一开始这个技术被恶用了怎么样,能恶用,就必定能想出对付恶用的方法,这样就会水涨船高的发展起来。

   

刘知远:咱们知道张院士的团队开展了很是多的针对深度学习对抗攻击方面的研究,能不能请张院士分享一下关于对抗攻击在隐私保护这方面,可能存在的一些研究的课题,能分享一下您的见解吗?

   

张钹:谈到隐私保护,有两类性质的问题,一类就是如何正确、合理、公平的使用隐私的材料,这一点我是同意必须靠我的和企业的自律来实行,也就是刚才高老师讲的诚信。由于咱们对我的信息也好,或者私人拥有的数据也好,不能按照西方对隐私的定义,没有获得对本人的容许就不能用。

 

在这方面,仍是回到刚才的问题,咱们为何要保护隐私?就是防止利用这些去伤害集体和我的的利益,这是一方面的问题,这个关系是很是复杂的,你能够用得很严,也能够用得很松,咱们在发展的过程当中,我仍是同意要逐步改进。

 

如今你们讨论另一个层面的问题,相对讨论得比较少,但其实是更加剧要的,就是如何防止人工智能的技术被滥用,这个问题实际上目前是最严重的,由于人工智能技术自己,特别是深度学习自己,是很是不安全的,不可靠的。

 

咱们必须作两个方面的工做,一方面的工做是咱们要订立规则,订立严格的法律法规来限制这种行为,第二方面,要发展安全、可靠、可信和可扩展的人工智能技术,由于只有技术往这方面发展,才能真正保证人工智能的安全,这是两个性质彻底不一样的问题。

 

后面一个问题,我以为是很是重要的,并且如今有的国家或集团,正在利用这个来进行国与国之间,集团与集团之间的对抗。

联邦学习与数据、隐私保护

唐杰:回到技术,其实智源人工智能研究院在开源的框架下也作了一个联邦学习平台,咱们如今面临一些问题。一方面,有一些医院很愿意在联邦学习的平台上把数据共享出来,可是还有一些医院,仍然不以为不放心,无法绕过医院的数据保密要求。从这个角度上,杨强老师能再点评或者是分享一下,大家用联邦学习平台跟你们合做的时候是怎么来解决刚才提到的这些问题?

   

杨强:不可能彻底隔绝两个机构来让他们共同协做,他们之间必定是有交流的,以前这种交流直接是原始数据,如今好比说利用联邦学习,就是一些加密的模型参数。但对于行外人来讲,他搞不清楚你传递的是数据仍是参数。

 

这时就能够有几种不一样的机制,一种机制是引入一个中间的协调机构,这个机构是你们都信任的,这种信息的传递是在每个参与者与中心机构之间在传递。

 

一种是把区块链加进来,区块链里面有一个透明的,不可篡改的机制,这个机制若是是参与方都赞成,能够把联邦学习的参数传递和区块链的透明机制结合起来加以协做。

 

另一种是要不断地教育大众。

 

一个例子,咱们在深圳有一些地产公司,很是热衷用摄像头来识别工地上有一些不安全的行为,好比说有一些工人忘记戴安全帽,一些工人在抽烟,过去的作法是把摄像头里的数据直接加以聚合,但有一个问题,在不一样的工地,若是把数据传来传去,工人面部的identity就会被传走,会涉及到隐私泄露的问题。

咱们跟他们作了一个联邦学习的机制,使得每一个地方的模型均可以用联盟里面全部数据源的数据加以训练,模型的质量能够增加,同时隐私能够获得保护。怎么让企业主明白隐私获得保护呢?咱们就能够在他们的指导下作一些实验,在他们的承认下,这个隐私是没有被泄露的,因此就有了各类各样去说服人的机制,协助咱们把这个机制传播开。

唐杰:刚才提到隐私保护其实要作精度和稳定性的提高,而刚刚张院士和高院士同时都提到下一代人工智能很重要的是可解释性,若是如今隐私保护联邦学习平台,会不会把可解释性干脆变成了一个黑盒子,甚至是变成了更复杂的黑盒子,若是在联邦学习的平台上来实现的话,就很难实现下一代人工智能的鲁棒性和可解释性?

   

杨强:这个听起来,可解释性和隐私保护是矛盾的,细想一下,他们并没必要要是矛盾的。咱们能够保护原始的数据和模型的参数,可是模型的推理机制却能够是透明的,好比说咱们一我的去看病,医生每每会给你解释这个病为何开这个药,可是他不会跟你透露,他是从哪些案例里面获得这些信息,和在推理过程中,用到了别人的哪些隐私信息,来使他自己获得这样的训练,这是两个不一样的维度,咱们能够分开。

刘知远:关于AI的精度和隐私保护,在联邦学习等这些方面,咱们有什么值得研究的话题?

   

杨强:实际上,这是一个交叉领域。当数据不是集中在一个地方,而是分布在不一样的数据拥有者那个地方的时候,如何可以让模型可以平衡地增加,不会造成一个数据寡头,这个寡头会左右整个联盟的发展,这是第一个问题


第二,若是咱们用一个加密机制来进行参数的沟通,如何可以在保证这个参数保密的前提下,又可以把速度、效率提高。第三,如何可以作出更加有效的,而且高效的加密算法,这种算法的特色,应该不只可以保护数据自己,同时又容许在加密的状态下能够进行各类运算,包括非线性的运算,可以支持像深度学习这样的网络计算。

另一个维度,若是网络有多个参与方,如何创建一种激励机制,可以用经济学和博弈论的观点,设计一个好的机制,让你们有动力参与到这样一个数据联盟,模型联盟里来。

还有就是人的因素,咱们在进行协做的状况下,如何可以遵循同一个标准,在国际上,在国内,在行业里面,如何可以创建一些行业和国际的标准,让你们有共同的语言来交流,这些都是不一样的维度来进行研究。

   

下一代人工智能

 

唐杰:下面要讨论的是下一代人工智能,下一代人工智能的技术特色应该具有哪些特色,包括隐私方面和其余各个方面?

   

杨强:我以为下一代人工智能,必定要考虑到“人”。以AlphaGo为出发点的人工智能,像无人机、无人车、机器人还有下围棋的机器人,都没有真正把人的因素考虑进来。而近几年咱们愈来愈多的发现,包括咱们讨论的隐私,都是说机器和人要协做,在这个过程中,人的利益有哪些咱们须要关注的?

 

好比隐私、安全和可解释性,人工智能的模型作出的判断如何可以解释给跟它一块儿合做的人类合做伙伴,如何可以把inference的机制和训练的机制解释给人,如何可以对不一样(职位立场)的人给出不一样的解释。

 

固然还有其余的,好比说如何可以让人的智慧直接赋予机器,让机器不是从头学,而是可以站在人类的肩膀上来学习等等和人的交互,这是下一代(AI)的特色。

   

高文:其实我把下一代人工智能排第一位(特色)也是可解释人工智能。排在第二位的,是高效能人工智能。我以为如今的人工智能,无论是追求超过人类的精度,其实付出的代价是巨大的,好比说最近咱们在鹏城实验室准备投资四十多个亿搞一个鹏城云脑Ⅱ,但愿有1000P的AI的算力支持大模型的训练,但人其实不须要这么大的算力,如今这样作是别无选择,可是我但愿下一代人工智能效率要高一点,不要为了训练一个模型花费这么大的算力,这是不该该的。

   

张钹:我很是赞成刚才两位老师讲的内容。其实我在考虑的问题是人工智能最终目标是什么,咱们如今作了哪些事情。

 

先说前面一个问题,咱们在60年里面作了两件事,一件事是根据符号主义的思路创建的以知识为基础的推理模型,经过这个模拟人类的理性行为,有了一些进展。另外一件事是咱们如今对的深度学习,就是以链接主义的思路,从神经网络层面上试图去模拟人类的智能行为。

 

这两件事如今作得怎么样了?不少人这样评价,这只是人工智能的序幕,大戏还没开始,为何说是序幕呢?由于这两个范式是都不可能达到真正的智能,对第一个范式来说,没有解决所谓的符号基础问题,这个符号是没有语义的,语义你是从外界强加的。基本概念里特别是常识,你只能用符号告诉他,这叫吃饭,这叫下围棋,就是说它的根基没有,这个根基必须产生于人类跟环境的交互中间创建起来的概念。所以,如今所谓的推理也好,符号主义的方法也好,就是在训练知识下面去积累新的知识,这个并非真正的智能。

 

深度学习更是这样,深度学习其实跟人类的感知差得太多,他只作了分类,只作了感受这一部分,并无作到认知这一部分。因此这两个方向都是走不远的。

 

如今的问题是正戏怎么演,看起来至关多的人已经认识到,只有把这两个结合起来,才有可能产生真正的智能,由于这两个正是互补的。符号主义是解决理性分析、理性智能的问题,链接主义是要解决感知的问题,虽然如今只作到“感”,没作到“知”,后面你们要想出不少的办法来解决这个问题。

 

目前人工智能存在的那些缺点,安全、不可靠、不可解释和不容易扩展都可以解决。如今的问题是,这个工做有没有但愿,咱们国家能不能作这个事?

 

我本身认为,咱们彻底有条件作这个事,如今这个思路全世界都在探索,固然这条路仍是很长的。咱们的信心创建在什么基础上呢?能够看到,即便咱们如今刚刚是序幕,已经会产生不少有用的结果,咱们能够想像,大戏若是开场的话,人工智能就会出来更多更好的结果。

 

因此我对这个前景仍是比较看好的,问题就是怎么来作这个事情,这是最关键的问题。由于这是从0到1的创新,只有增强人工智能的基础研究,才能解决这个问题。咱们往前走的时候,效率和其余的可解释问题,也都会逐步获得解决。

   

唐杰:如今的人工智能主要是在感知时代,下一我的工智能极可能是认知时代。

   

张钹:感知是感受+认知,因此咱们如今作的不是感知,是只作了感受,没作到感知,感知必须是感受到认知,区分这个物体,并且必须认识这个物体,这两个是不同的,咱们如今都是作了一半,在认知这一部分作了很肤浅的部分,我把第一个范式叫第一代人工智能,第二个范式叫第二代人工智能,我如今指的下一代人工智能是指第三代的人工智能。很明确,就是要把第一代人工智能的知识驱动的方法跟第二代人工智能数据驱动方法结合起来。

   

唐杰:张院士认为有没有阶段性的(研究过程)分解一下,咱们作一下相关的研究?

   

张钹:人认识狗,必需要有狗的先验,计算机没有狗的先验,不认识狗,狗的先验从哪儿来呢?深层次的网络里面你们能够看到,经过无监督或者是弱监督学习,已经在往前走。如今,咱们的博士生作了一个工做,把深层次网络、分布式网络等几个网络结合在一块儿,就能够把物体先验的知识经过弱监督或者无监督把它学习下来,利用这个知识来指导分类,使它逐步走向,既能够分辨物体,又能够认识物体,这方面的工做已经有不少这方面的工做。

抢占AI制高点

唐杰:回到今天的最后一个问题,怎么来抢占制高点。既然咱们要抢占制高点,又不能光发论文,要作颠覆式创新,学生的角度怎么作相关的科研,怎么在研究上抢占制高点,怎么在工程上,甚至是系统上抢占制高点?

   

高文:什么事都不要走极端,重视论文,论文就是一切,不重视论文,论文就不能发了,有点走极端。我以为这一点都不矛盾,关键仍是和你研究的动机有关。我认为抢占制高点,最关键的就是要瞄准一些没有人作过的东西,让学生去作,作出来了,你该发论文发论文,该怎样就怎样,因此研究动机是关键。

  

杨强:如今Paper都成灾了,顶会动辄都是上万篇投稿,这个现象总会发生的,由于你们认为一个方向有前途,第一件事必然是写文章,争取出人头地,这个姑且不论,做为一个有责任心,有志向的学生或者是学者,应该努力创新的一部分就是选题。你们可能更多的去关注文章的数量,而没有在选题上更多的关注。

 

个人一个前辈图灵奖得到者Jim Gray,有一次提出应该作什么样的研究。首先,这个研究很新,之前没有发生过,好比说计算机刚刚出现的时候,语音识别就是很新的方向,历来没有人尝试过。第二,这个问题又很难,难到什么程度呢?你们一听到这个问题会发愣。第三,这个问题又很容易解释,好比说你在家里面,问你的祖父母理不理解这个问题,让计算机能理解语音,他们一下就懂,一句话就能描述,这样的问题每每是比较重要的。

有了这些条件还不够,有不少这样的问题,咱们是没办法真正解决的,还须要一些方法,能够分解成一些能够解决的阶段,每个阶段就是一个小目标,先分红一个个小目标去解决。

 

最后,如今的计算机,尤为是人工智能的发展,是离不开数据的,最好是有数据,或者是很容易得到,这个研究才能够落地。若是你们按照这个方式去寻找一些新的问题,老是有一些新的问题,尚未不少人去解决,这样的文章不嫌多。

   

张钹:我基本上赞成刚才两位老师的分析,实际上基础研究,最后仍是落脚到发表论文上,因此我认为,如今发表论文数量比较多,这是一个进步,很是大的进步。

 

咱们如今的基础研究平均水平其实是接近世界水平的,平均水平很高,可是咱们缺点在哪儿呢?最高水平跟人家差得太多,咱们尚未从0到1的发现,这在发达国家能作到,咱们还作不到。

 

咱们也不要对如今的现象作过多的批评,由于咱们过去没有条件作这个事,由于咱们都不知道前沿在哪儿,最前沿的文章都发表不出来,有什么可能去作0到1的发现呢?因此应该说在咱们的平均水平已经接近世界一流的状况下,咱们是有条件去作0到1发现的,也就是作一个具备巨大影响力的基础研究。固然平均水平高,才能产生最高水平的文章,其实基础研究的水平是是由最高水平决定的。

 

如今中国在作这件事情上,我认为在体制上还有很大的困难。好比说咱们有不少优秀的学生,咱们通常状况下,不敢让他作那些很是困难、很是新的问题,咱们的学生经不起失败,而在外国的体制里有至关一部分博士生毕不了业,可是这对他没多少影响。

 

我在一个大学里待过,他们有一个博士生作了八年,到期作不出来,结果去找工做,好多公司抢着要他,我就问,为何要他?他有八年的工做经验,是这样想的。但咱们若是有一个清华大学的博士,很是优秀,但没有作出来成果,咱们会怎么来处理这个问题,他根本无法毕业,很难找到工做,或者是只能找到不太理想的工做。

 

因此咱们在基础研究上,体制、机制仍是须要摆进来,否则的话,这个事情是不容易作成的。

    

唐杰:观众提问,我是一个普通的高校学生,最近找工做的时候常常碰壁,一方面跟如今的大环境,可是另一方面,我担忧的是如今AI技术,是否是人才饱和,将来的就业环境可能会更加恶劣,有没有什么这方面的就业建议?

   

杨强:我以为若是只是去作你们都作的这些工做,就必定会碰壁的,在任何一个领域,若是落地的场景不多,而且作得人多,必定会饱和的。因此,有两个方向,一个是把本身变成一个真正能把技术落地的很是能干的人,另一个是能作一些比较高精尖的研究工做的人,好比说院士这样高端的研究人才,去发现问题,解决问题。

   

高文:这其实几乎在任什么时候候都会存在的一个问题。我记得90年代在日本念书的时候,当时我周围那些日本的同窗,他们就很焦虑,你们以为日本特别是80年代末那段时间,经济很是好,90年代初,日本的经济就开始下滑,学校里面这些念研究生的,一个个都很是惊恐,找不到工做了,他们当时就叫over doctor(博士过剩),本科毕业就下降一点要求,找一个工做仍是可能的,特别是东京大学这种本科毕业通常找个工做都容易,但一旦博士毕业了,工做领域就很是受限,找工做会很是难,因此就很是焦虑。

 

可是实际的状况,咱们的研究生毕业之后,全部人都找到工做了。因此我说,问题总存在,出路是关键,本身要把能力训练好,另外就是对于工做的方向性的选择也很重要,这可能和我的的选择是有关系的,也没什么太多好建议的,作好本身就是了。

推荐阅读
你点的每一个“在看”,我都认真当成了AI