CIIS2018演讲实录丨百度王海峰:语言与知识

 

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。算法

 

 

 

转自 | 中国人工智能学会网络

做者 | 王海峰机器学习

 

这次小编为你们整理的是来自百度高级副总裁,ACL/CAAI Fellow王海峰先生主题为《语言与知识》的精彩演讲。分布式

 

王海峰布局

百度高级副总裁,ACL/CAAI Fellow学习

 

如下内容根据速记进行整理大数据

通过王海峰老师本人校对搜索引擎

 

 

王海峰:尊敬的各位院士、各位专家,你们上午好,我叫王海峰。赵院士最后一页我注意到他讲的是AI,我在百度是负责AI,我演讲的时候常常是在讲人工智能,从人工智能的技术发展到整个大的产业趋势到各行业应用,包括刚才讲的AI在农业中的应用我也很感兴趣。人工智能

 

今天我不从人工智能全貌讲,而是讲语言和知识,一方面我我的是搞天然语言处理出身的,我搞了二十多年的语言处理和相关的技术。另外一方面语言和知识也很是重要,百度从2000年开始作搜索,搜索最核心的技术就是对语言和信息的处理,咱们要理解网页内容须要语言处理技术,我本人也是由于天然语言技术才加入百度的。这个我就不介绍了,天然语言处理你们都认为很重要,在各方面都很重要。翻译

 

对于人工智能来说咱们有不少不一样的解读,其中咱们但愿机器像人同样思考,而这背后是什么技术在支持呢?请你们先看左半部分图片,语言是思惟的载体,就像咱们学习外语的时候老师会说若是你要学好这门语言就要用这门语言看成母语同样去思考。人类之因此不断的在往前发展,知识的传承也是很重要的,这种知识的凝练传承很重要的载体就是语言文字。咱们看到早期的字符到甲骨文再到如今纸质的书还有互联网的文字,正是语言文字的力量促进了人类文明的发展。

 

语言一方面成就了人类的文明,另外一方面人类也面临着语言鸿沟的挑战。咱们都知道著名的“巴别塔”,这也是语言的一个很著名的例子。因此咱们有了机器翻译,我本人是从93年开始进入相关的领域,最先就是作机器翻译,机器翻译咱们能够列举出不少的问题,一个是译文怎么选择,一个是怎么调序,由于不一样语言之间的语序是不同的。

 

而机器翻译固然比我进入这行久得多了,从1946年现代计算机诞生之初,就开始有人提出用计算机来作翻译的想法。

 

通过不少年的发展,80、90年代最流行的方法当时咱们领域里叫理性主义方法。更多的是像咱们学语言的时候要背单词、学语法,因此当时机器翻译系统也在模拟这样一个过程,用规则系统,知识工程来作。我从93年开始进入机器翻译这个领域,当时是作规则系统。

 

作了两年以为还不错,到了95年的时候,参加国家863的评测也得了第一,也以为很自豪。可是后来很快发现规则不断的增长,对于整个系统的控制愈来愈难,规则的冲突等各类问题愈来愈严重,致使这个系统愈来愈难作。因此我到96年开始就在想是否还能用其它的方法呢?当时看了不少资料,一些新的方法也开始出现,好比基于经验主义的应用统计,机器学习包括神经网络的方法都开始出现了。当时我也不是很懂,我就想到底用什么样的方法能更好地解决问题呢?同时也受了一些影响,一个是刚才戴院士讲的脑科学与人工智能。另外一个是恰巧去书店找书时碰到了几本书,这几本书都是一个老师写的,也就是我们的主持人焦老师写的。神经网络有三本书,基础理论、计算、若是没记错的话还有一本叫应用与实现,看了这些书我开始用神经网络来作天然语言处理。天然语言处理实际上是有上下文的,我又看了国外的文章,最后用这种RNN反馈循环的方法,完成了个人博士论文。

 

在这以后我又遇到了问题,当时的计算能力特别有限,数据也特别少,作的过程当中取得了一些成果,也写了一些论文,可是大系统作不起来。那时候我已经博士毕业,开始到微软研究院工做,工做后发现其实统计上作的人很是多,并且用了各类方法,包括平滑的方法去解决这些数据稀疏等问题,因此改作统计机器翻译。

 

统计机器翻译也有一些问题,好比中英语言之间有很是多的语料,统计机器翻译作的不错了,可是小语种因为缺乏语料又作得很差了,这时候我提出一套基于枢轴语言进行模型推导的方法,把一些小语种语言作好。那时候还很愿意参加评测,参加了国际口语机器翻译五个项目的比赛,基本都得了第一。

 

后来我到百度以后把这些统计、规则、神经网络等方法所有集中起来作,2011年上线了百度翻译。神经网络因为算法、数据、算力的共同进步复苏了,数据和计算能力起到了核心做用。从我作博士论文算起,过了差很少二十年后又开始用神经网络的方法,提出了新的神经网络机器翻译方法。百度翻译当时也作得不错,也得到了国家科技进步二等奖,如今百度翻译天天提供网上翻译服务是过千亿的量级,已经很是大了。

 

当时咱们上线了全球第一个互联网神经网络翻译系统,很好地解决了数据稀疏、词表外的词包括译文缺失、解码速度等一系列问题。可是语音翻译对实时性的要求更高,前一段时间咱们刚刚发布了一个新技术,能够很是实时的来控制翻译,而且延迟速度可调,这里边一个关键技术是对语言的预测,就是不只我听到什么就知道什么,并且对下面的内容也会进行预测。好比咱们看到今年百度世界大会的例子,实时性已经很是好,基本你说中文同时英文就出来了。

 

讲到这儿我回顾了我作机器翻译的历史,我不是在讲我本身,而是说人工智能的发展基本脉络是从对人的一些表层的模拟开始,好比咱们最初用规则系统,后来发现有不少弊端存在,才开始用统计的机器学习的方法,而后又遇到一些算法算力等各方面的问题,解决后又上了一个台阶,这样不断持续进步的一个过程。

 

 

百度的人工智能,除了刚才讲的机器翻译、天然语言处理,咱们实际上是一个完整的平台,这里边除了对语言的理解,对知识的掌握运用之外,包括跟人的听觉相关的语音技术,跟视觉相关的计算机视觉技术等。如今咱们全部技术基本都到了要作深层次的语义理解的阶段。而全部这些咱们把它总体上集成起来造成这样一我的工智能平台既能够在百度内部用,也同时对外开放出来了。

 

 

今天个人主题是语言与知识,说完百度大脑如今回到语言与知识,这就是百度在这方面的总体布局,固然底层有知识图谱,知识图谱有不少不一样的基本单位,一般的知识图谱基本单位就是实体,除了实体好比咱们为了作个性化推荐,可能要作关注点图谱,同时要理解一些事件,要作序列化事件的图谱。而后为了作不一样的行业,要作行业的知识图谱,包括要作地图就会有POI地点图谱等等,然后台的技术会有知识的挖掘、知识的整合和补全,以及怎样作分布式索引,存储计算、知识的计算推理等。

 

 

而天然语言处理从基本的语言的词、短语、句子到语义到篇章各方面都有不少工做的开展,这是从分析理解的角度。另外一方面就是生成,能够作片断、摘要、也能够作整个篇章的。好比你们如今在网络上看到的不少文章其实都是机器自动写的。这些技术综合起来,相应会有不少不一样的应用,好比说搜索、问答、对话,智能写做、翻译等等。

 

词法分析相对是比较经典的技术,尤为对中文来说要作分词,这里我不详细讲分词的原理,相信不少朋友也都很清楚。分词如今的作法,主要靠语料的规模,人工标注的语料一般颇有限,咱们利用互联网挖掘一些弱标注数据,而后再用它对人工标注数据进行不断补充,产生更多的能够用来作训练的数据。

 

从句法分析来说,好比搜索引擎上用户来查询,会作基本的句法分析,对于中文来说我一直的观点是对于中文彻底沿用西方语法的短语结构文法其实仍是有一些不那么适合的地方,因此不管是我仍是百度,咱们作的句法分析一直在用依存文法。在语法层面有了之后就要作语义的分析,好比说咱们看到的这个例子“胡歌演的古装剧有哪些”,进入到语义分析层面就会发现核心成分咱们要找古装剧,而后知道是胡歌演的。一个完整的句子,用户输入进来,从基础的词法句法到语义分析,最后把核心语义成分提炼出来,最终就是两个关键词一个是胡歌,一个是古装剧。

 

除了理解单句还要理解篇章,篇章咱们还要作不少事情,好比一篇文章我要知道它的主题,就要知道里面一些关键信息、话题、一些关键词等,咱们把它叫作主题分析,另外一方面想知道这篇文章做者的观点是同意仍是反对等等这些情感分析,这也是天然语言理解一个很重要的方向。咱们读一篇文章的时候,看了内容以后,但愿能从中获取一些知识、凝练一些知识,篇章理解对这些知识的获取也很重要。后面我讲知识图谱的时候会谈到知识获取的问题。

 

经过对篇章内容的理解和主题分析,咱们就能够根据用户的兴趣推荐相应的新闻和资讯,咱们还能够作不少其它事情。好比说咱们看到一段用户的评论,咱们能够去分析,这段评论对餐厅是推荐仍是不推荐,是喜欢仍是不喜欢。涉及到观点抽取的时候,又涉及到不少具体的技术好比情感搭配的挖掘,观点的计算等等,我就不详细讲具体的技术了。

 

涉及到知识获取,你们看到医院的这样一段病历,这样一个病历里头咱们能够作要素和关系的抽取,而后能够把一个无结构的文本先进行结构化,基于结构化的文本咱们构建出相应的这个领域的知识图谱。

 

百度作搜索已经不少年了,而天然语言理解技术其实在推进搜索引擎不断进步,咱们能更好的理解用户的query,就能够更好的知道客户到底须要什么,另外一方面咱们更好的理解文本就能找到更精准的答案。因此搜索引擎从传统的只给一些连接,用户点进去本身看,发展到如今的智能搜索能更精准的理解需求,直接给用户答案。阅读理解除了咱们本身作,咱们也会开放一些数据跟你们共享,像咱们开放的DuReader机器阅读理解数据集不只规模很是大,并且都是天天用户搜索的真实数据。

 

刚才提及语言的事儿,我再接着说,怎么样基于大规模的海量数据,以及天然语言处理技术来构建大规模的图谱。这时候涉及到对彻底没有标签的大数据进行开放的知识挖掘,涉及到语义空间的变换和知识整合,这些方面集成在一块儿,构成了咱们庞大的知识图谱。好比百度基本的知识图谱是基于实体的,也就是如今ppt中间部分的,这个也是你们用知识图谱一般会用到的,百度如今构建了世界上最大的,包括三千多亿事实的知识图谱。你们能够想象,人脑虽然很是强大,但做为个体,没有人能记住几千亿个知识点。而靠知识图谱技术,靠这种自动挖掘、学习,构建的知识量是很大的。咱们针对不一样的应用能够构建行业的应用知识图谱,能够构建为了地图作出行、POI等等各方面的,针对特定应用的图谱。

 

 

举个医疗的例子,医疗对于人类来讲是很是重要的,咱们从基础医疗的大数据,好比教材,药典,病例等各方面获取基础数据,而后基于这些数据经过实体连接、结构化解析等技术构建出医疗知识图谱。造成图谱之后咱们能够作不少的事情,好比说利用交互式问答、智能推理等技术进行分诊,自助诊断等等。

 

刚才提及了语言又提及了知识,咱们也构建关于汉语语言的知识,好比咱们从小学习语文,学了不少的成语、歇后语等等这些,这些对于汉语语言自己的知识也构成一个图谱。在百度搜索里很是多的用户有这样的需求,当一个用户不知道这个字怎么读的时候他可能会描述一下。好比说上面一个草字头,下面一个句子的句这个字怎么读,你能够输入文字搜索,也能够用语音来问,这个背后是基于汉语语言的知识图谱来作的。再好比我知道这个字以后我来问,包含“苟”的诗句是什么,他会找出相关的诗,背后都有汉语语言知识图谱在作支撑。  

 

除了作语言和知识自己的技术应用之外,还有不少是与其它人工智能技术的结合,好比说咱们作语音、作视觉,包括大数据,最后它仍是会跟语言知识结合起来,这个时候会是一个融合的深度语义理解过程,咱们看到一个视频,除了对视频内容的分析之外,想进一步理解的是背后的相关知识,这个时候又要用到知识图谱。

 

 

时间关系这个部分我不详细讲了。你们看到这样一个片子,经过视觉技术来识别里面的关键信息,同时结合知识图谱咱们能对这个片子有个更完整的理解。你们看到这个世界杯期间的一小段视频,前半段是用视频语义理解的技术,让电脑自动的在看这段视频,而后把相应的内容理解出来。以后咱们要结合知识图谱,结合背景知识把它给完整的理解以后,利用语言的生成技术,最后用语音合成技术,合成一个世界杯比赛的自动解说。

 

另外一个例子智能客服,更可能是语言和知识与语音技术的结合,这个已经接入运营商的系统自动接客户的电话,不须要人来干预接听。这是一段真实的用户打进来电话,机器接听的例子,这背后须要语音的识别,须要对用户意图的理解,也须要背后的知识图谱,须要对业务流程的理解,最后合成出来帮用户完成他的需求,这也是各类人工智能技术综合在一块儿作成的智能客服。

 

语言和知识已经有不少地方在应用,如前面的例子。但也面临有几个挑战,在我看来这些方面是挑战很大的。

 

如今大数据规模很是大,但作特定应用、特定任务的时候仍然有语料稀疏的问题,怎么用无标注,弱标注数据去指导模型训练仍然是很重要的一个方向;

 

另外一方面是知识有效的利用,为了有效利用知识,涉及到知识的发现、凝练、存储、计算、推理等一系列的事情。你们都知道神经网络很是热,如何让这两个差异很大的体系更好的深度融合,也咱们须要进一步去探索;

 

另外一方面就是结合应用场景的语用问题的解决,或者说咱们作语言理解的时候涉及到各类语用的问题。

 

今天个人报告就到这里,我相信随着技术发展,咱们会让机器愈来愈深刻地理解语言、掌握知识、也拥有智能。谢谢你们!