智源沙龙 | 人工智能“3个30年”之后,下个30年将走向何方?

9月25日,由北京市医院管理中心联合北京智源人工智能研究院共同举办的“北京市属医院人工智能专题学习——医学人工智能和智慧医疗应用培训会”在中环办公楼(枣林前街70号)二层新闻发布厅召开。

市属20多家医院的150多名临床医生和科研管理人员参加了本次活动。活动由北京市医院管理中心科教处潘军华处长主持,北京智源人工智能研究院黄铁军院长和智源人工智能医药健康专家组成员闫峻博士做了主题演讲。

黄铁军博士:新一代人工智能过去、现在和未来

黄铁军博士是北京智源人工智能研究院院长,北京大学教授,是我国视觉信息处理和类脑计算方向的著名学者。黄铁军博士同时也是国家新一代人工智能产业技术创新战略联盟秘书长、国家新一代人工智能治理专业委员会委员,国家人工智能标准化总体组副组长,是国家杰出青年科学基金获得者,万人计划科技创新领军人才,获得过多项国家科技进步奖和国家技术发明奖。

黄铁军博士以“新一代人工智能过去、现在和未来”为主题,分别从“现在:新一代人工智能及国内外情况”、“过去60年:经典人工智能到深度学习”、“未来30年:制造类脑机,迈向强人工智能”三个方面进行了阐述。

现在:新一代人工智能及国内外情况

黄铁军博士认为思考人工智能的发展历程,不能只看1956年到2016年这60年,还需要在这个基础上往前看30年,再往后看30年,这样看到超过100年的发展过程,才能对现在人工智能的发展做出更有利的判断和规划。通过回溯人工智能近百年发展历程,黄铁军博士以“智能为用、学习为魂、机器为体”12字总结了未来人工智能技术的发展方向。

当今,人工智能已成为全球大国竞争的新焦点。以美国为例,从2016年5月白宫成立人工智能委员会,到今年6月美国发布《国家人工智能研究和发展战略计划》指出要与国际盟友合作发展人工智能,并划分了阵营,很显然中国没有列入美国盟友,这是因为未来中美在人工智能和5G领域的竞争会更激烈。

我们国家的新一代人工智能研究是从2015年底开始的,发展规划至2030年,以15年为一个阶段。关于2030年以后的发展情况,目前也有各种预测,这其中就包括了关于强人工智能出现的可能性问题。有些人认为不可能出现强人工智能,而有些人认为很有可能出现。此外,大家对什么时候会出现强人工智能也有各种说法,其中2045年是一个重要的时间点,这个时间是在一次AGI会议上,会议举办方根据与会学者和专家对出现强人工智能的预测时间汇总统计出的。如果按2045年计算,那么从现在开始,差不多也是发展30年之后就会出现所谓的强人工智能。

对比国内外人工智能发展现状,黄铁军博士认为我国人工智能发展过程中在数据、人才、应用场景、市场环境、政策支持等方面具有独特的优势;但是在基础理论、原创算法、高端芯片、关键部件、高精度传感器等方面较为薄弱我国现在确实处于人工智能高速发展时期,但这并不代表到2030年,我国新一代人工智能就能达到世界领先,并不是我们赶上了这次大潮,就自然而然的领先了,只有把上述问题解决了才能真正领先。

过去60年:经典人工智能到深度学习

60年来,人工智能在发展过程中经历了三次潮起潮落,各种各样智能功能是怎样实现的,背后的基本思想和方法来自于人工智能三大流派:符号主义、行为主义和连接主义。

人工智能的发展主要有1986年提出的BP神经网络、2006年提出的深度学习和2016年提出的新一代人工智能。BP神经网络和机器学习是对人工智能影响最大的两个研究方向。

我们需要关注什么问题呢?我们需要关注智能和人工智能背后实现的载体到底是什么。智能是一种功能,是一种现象,这种能力是靠什么东西来实现的?人的智能靠人的大脑和人的身体实现,那人工智能呢?承载智能的那台机器到底是什么?似乎最后一个跟没问一样,那不就是计算机吗?实际上,我们不能这么简单的看。

大脑——强人工智能唯一参照物

计算机发明70周年,从科学计算到今天的大数据、云计算,哪一个真正触及了智能的核心问题?黄铁军博士认为这些都没有触碰智能的核心问题,它只是在解决规模越来越大、越来越复杂的应用问题,所以这些不是智能,只是有一些智能的表现。为什么是这样?因为计算机的成功得益于晶体管,得益于集成电路,得益于摩尔定律,速度越来越快,规模越来越大,计算机的发展赶上了一个顺风车,但这不等于它就是人工智能的载体,它只不过是一个很好用的,很强的一个计算工具而已。

1950年,图灵的《计算机与智能》这篇论文提出“机器能思考吗”的问题,是人工智能的真正的起点。在这篇文章里,他提出制造一个真正的智能机器必须具有学习能力,而制造这种机器的方法就是先制造一个模拟童年的大脑。因为没有这颗大脑,你想训练出智能是不可能的。冯·诺依曼也是这么认为的,他留给后人的是1958年出版的《计算机与人脑》,他作为一个数学家,提出了计算机体系结构,那么他为什么要去研究人脑,为什么要去研究神经元呢?这就是要为机器开发真正的智能找一个合适的参照物,即大脑。

造脑——神经计算机

黄铁军博士认为制造类脑机要回到大脑,不是回到认知科学,而是要回到神经科学,我们要知道是什么样的神经网络产生了人类智能,是从大脑的物理层面看这件事,并不是从精神、意识这样的思维层面去看。大脑的神经网络可以解析出来,然后基于这个图谱造神经计算机,进行训练让它产生智能,然后再去解释机器为什么就产生了智能,如果我们理解了背后的机理,我们再告诉脑科学家去检验生物大脑是否也是按照同样原理产生智能的。

当然这是一个工程量很大的事情,但是差不多十年左右把大脑精细解析是有可能的。欧洲的人类大脑计划,实际很多工作也在做这件事,美国脑计划也是一样的,首先要把大脑图谱弄出来,然后把它造出来做一台机器。我们把这台机器叫神经计算机,或者叫神经形态机,它实际是按生物神经网络,用神经形态器件做的,这个器件就是人工突触和人工神经元,它处理的信息不是逻辑,不是要做计算,它就像一个生物要把感知这个世界的那些模态信息作为重要对象的一个机器。

未来30年:制造类脑机,迈向强人工智能

经典人工智能的潮起潮落,引起了对人工智能概念的大讨论,结果之一就区分出弱人工智能(weak AI)和强人工智能(strong AI)。强人工智能也称通用人工智能(Artificial General Intelligence, AGI),是指达到或超越人类水平的、能够自适应地应对外界环境挑战的、具有自我意识的人工智能。

黄铁军博士表示强人工智能能够适应环境,应对未知的挑战,有自我意识,是一种颠覆性的概念。产生强人工智能,不是理解大脑奥秘的结果,而是基础和前提。正如先有1903年莱特兄弟发明飞机,才有冯卡门和钱学森1939到1946年建立起空气动力学。同样,神经形态机制造成功,强人工智能才能发生,而不是我们理解大脑背后的奥秘之后强人工智能才会发生。黄铁军博士预测,未来30年内会出现强人工智能。

对于大家讨论的30年后,当机器超越人类之后,会不会消灭人类的问题,黄铁军博士给出了自己的看法,他认为到那时候的机器智能形态已经跟人类有了根本性的差别,它的思考速度比人类快一千倍,那时候的智能机器与人类根本不在一个维度上,所以它根本不屑于做消灭人类这种没有意义的事情,就类似现在的人类与蚂蚁的关系,今天的人类根本没有兴趣去把世界上的蚂蚁消灭完。

最后黄铁军博士抛出一个问题,他认为任何一种对人类心灵的冲击都比不过一个发明家亲眼见证人造大脑变为现实,而按照之前人工智能的发展速度,如果30年之后我们的预测变为现实,人工智能再下一个30年将走向何方,需要我们进一步的探索。

闫峻博士:医疗大数据技术的深入研究

闫峻博士是北京智源人工智能研究院人工智能医药健康专家组成员,医渡云首席人工智能科学家,北京大学数学学院博士,微软优秀学者,微软亚洲研究院资深研究员,中文信息学会医疗健康与生物信息处理专业委员会委员,国家药监局AI医疗器械标准化技术专家组观察员,在医疗健康领域的人工智能研究和产业化应用方面有很深的造诣。

闫峻博士结合其长期在人工智能科研领域与应用领域的实际经验及认知,从人工智能产业发展的要素、人工智能技术赋能医疗的流程及人工智能+医疗的应用范例,分析了其在医疗大数据技术深入研究的成果。

人工智能产业发展所需要素

闫峻博士表示纵观人工智能产业几十年的发展过程中的几次大起落,分析其中深层原因可知,人工智能产业的发展不仅仅依赖技术,还需要以数据与知识为基础,同时具有好的智能应用。这形成了人工智能发展的闭环。

人工智能技术赋能医疗基本流程

数据是人工智能技术应用的基础,闫峻博士以医疗数据为例,从数据集成、数据处理、数据应用的三个角度,阐述了如何从真实世界的医疗数据出发,通过人工智能技术实现对社会医疗的助力。

1.数据集成是保证完整数据的必要步骤

一般情况下,大三甲医院的医疗数据来自多达80-200种院内信息系统,可能涉及300-500家厂商,包含电子病历、影像等多种形式。面对医疗数据的多源异构问题,首先需要解决的便是数据集成问题,闫博士分析了常见的三种思路:由厂商提供接口,需要考虑高费用问题;设计统一的数据上报平台,需要建设统一的数据标准;采用数据库收集,需重视各个字段的理解。

2.数据处理是获得模型可使用数据的方法

数据是人工智能技术发挥效能的基础设施。如何通过数据处理方法获得满足计算机要求的数据成为一个重要问题。数据处理通常包括数据结构化、数据标准化、数据标注三个环节。

①纯人工将医疗纯文本数据结构化为表单或数据库,其费用与时间成本都是高昂的。而通过自然语言处理算法协助完成数据结构化,则是高效且相对便宜的。其主要思想是,采用专业医疗词典与上下文语义分析技术。在目前的实际应用中,可行的技术路线是通过“词典+词向量+双向LSTM+CRF”解决数据结构化问题。

②鉴于当前医疗数据在完整性、准确性、一致性、时序性四方面存在的问题,在数据标准化过程中,不仅需要将多种名称(如,标准术语表万级,但实际诊断使用术语千万级)或表述方式统一为标准化的术语,而且需要建立符合医学逻辑的知识图谱,利用基于AI技术的流程质控工具过滤得到高质量的医疗数据。

③标注数据是目前人工智能技术赋能产业获得好结果的重要保障,对人工智能技术的应用具有重要意义,但聘请大量专家级医生进行纯人工的医疗数据标注,不仅是高成本的问题,也是对优质医疗资源的浪费。而采用主动学习算法与众包平台的方法,大大降低了标注数据的代价。

3.数据应用-如何进行模型的选择

有了数据,如何选择合适的模型呢?闫博士使用简明扼要的语言概述了传统机器学习与深度学习的应用场景的不同。当了解数据的分布情况时,采用传统机器学习模型将事半功倍,例如,某手术记录有2000条,300维度特征的数据量时,无疑使用传统的拟合方法远优于使用当前时髦的深度学习方法。深度学习方法本质上是特征的提取,当数据分布情况难以统计时,其可基于大规模的数据,通过多层全连通网络去逼近数据的真实分布。同时,通过知识与机器学习的双驱动是当前实用的方式。

人工智能+医疗已逐步服务社会

基于上述数据+模型的准备,还需要重视实际应用场景与科研问题的不同,此时有效的策略可能发挥着意想不到的效果。闫博士举了一个其早期工作中遇到的有趣例子。当时,银行试图通过“指纹+密码”方法解决用户身份识别问题,发现当用户手指潮湿时,识别效果不理想。大家从算法、数据层面尝试了很多方法试图解决上述问题,但成效有限。当大家的科研思路陷入困境时,一张纸完美地解决难题,只需要在设备旁放一盒纸巾,用户纸巾擦手后再使用,应用效果很好。

目前,在智能应用方面,人工智能已赋能于社会医疗的多个方面:

1.在临床医学科研方面,如通过纳排可快速定位目标患者,为提供疾病分布、诊疗方案研究等提供了有力的支撑;通过结构化数据与知识图谱技术,建立医生专属诊疗画像,为其提供个性化的推荐。

2.为促进AI+医疗行业的发展,建立了满足专科具象需求的开放性生态平台,为有算法技术储备的公司提供从数据梳理到应用领域指导的支持。

3.在药品研制方面,如可通过人工智能技术获取药理动力学机理,快速获取候选药品;通过纳排功能可快速筛选药品试验患者等。一方面加速了药物研制的进度,另一方面降低了费用成本,改变了目前一种药物研制需要投入10年20亿美金的现状。

4.临床辅助决策系统正逐步进入实际应用。

5.仅需加密参数传输的多中心联邦学习方法,为多中心医疗研究成为了可能,消除了医疗数据传输共享的风险。

6.在疾病预测方面,人工智能技术也开始发挥重要作用,比如中国医科大学附属第一医院利用人工智能技术寻找出潜在的HIV患者,通过跟踪发现,其准确率超过90%。

7.在医疗保险方面,基于医疗大数据,预测患者肿瘤复发的概率与花费,为保险公司设计大病二次保险的险种,在保障保险公司收益的情况下,确保肿瘤复发患者得到医疗保险的支撑以获取有效治疗。

总之,人工智能技术已渗透至医疗的多个方面,为我们的社会和人类赋利。

潘军华处长做了会议总结

潘军华处长首先对两位主讲的精彩演讲表示了感谢。从国家关注AI医疗建设的程度来看,潘军华处长认为大数据平台和人工智能等新兴技术对于不同等级的医院应该应用到什么程度,应该构建什么标准,对医院的发展是非常重要。未来在临床研究的过程中需要跟一些人工智能、大数据领域的专家做一个很好的对接,利用人工智能技术加强和提高医务人员开展临床研究。

潘军华处长表示未来北京市医院管理中心将会将会与北京智源人工智能研究院围绕人工智能医药健康主题开展系列培训活动,进一步提高市属医院的创新发展能力。

您想来一场跨域时空的AI思想碰撞吗?

智源在这里等您!