近日,微软亚洲研究院副院长周明在「天然语言处理前沿技术分享会」上,与你们讲解了天然语言处理(NLP)的最新进展,以及将来的研究方向,如下内容由CSDN记者根据周明博士的演讲内容编写,略有删减。
周明博士于1999年加入微软亚洲研究院,不久开始负责天然语言研究组。近年来,周明博士领导研究团队与微软产品组合做开发了微软小冰(中国)、Rinna(日本)、Zo(美国)等聊天机器人系统。周明博士发表了120余篇重要会议和期刊论文(包括50篇以上的ACL文章),拥有国际发明专利40余项。网络
今年微软首先在语音翻译上全面采用了神经网络机器翻译,并拓展了新的翻译功能,咱们叫作Microsoft Translator Live Feature(现场翻译功能),在演讲和开会时,实时自动在手机端或桌面端,把演讲者的话翻译成多种语言。架构
图1归纳了神经网络机器翻译,简要的说,就是对源语言的句子进行编码,通常都是用长短时记忆(LSTM)进行编码。编码的结果就是有不少隐节点,每一个隐节点表明从句首到当前词汇为止,与句子的语义信息。基于这些隐节点,经过一个注意力的模型来体现不一样隐节点对于翻译目标词的做用。经过这样的一个模式对目标语言能够逐词进行生成,直到生成句尾。中间在某一阶段可能会有多个翻译,咱们会保留最佳的翻译,从左到右持续。
框架
这里最重要的技术是对于源语言的编码,还有体现不一样词汇翻译的,不一样做用的注意力模型。咱们又持续作了一些工做,引入了语言知识。由于在编码的时候是仅把源语言和目标语言当作字符串,没有体会内在的词汇和词汇之间的修饰关系。咱们把句法知识引入到神经网络编码、解码之中,这是传统的长短时记忆LSTM,这是模型,咱们引入了句法,获得了更佳的翻译,这使你们看到的指标有了很大程度的提高。工具
此外,咱们还考虑到在不少领域是有知识图谱的,咱们想把知识图谱归入到传统的神经网络机器翻译当中,来规划语言理解的过程。咱们的一个假设就是虽然你们的语言可能不同,可是体如今知识图谱的领域上多是一致的,就用知识图谱加强编码、解码。具体来说,就是对于输入句子,先映射到知识图谱,而后再基于知识图谱加强解码过程,使得译文获得进一步改善。
学习
以上两个工做都发表在本领域最重要的会议ACL上,获得不少学者的好评。测试
你们会说,中国文化和人工智能有什么关系?中国文化最有表明性的是对联、诗歌、猜谜语等等,它怎么可以用人工智能体现呢?好多人一想这件事就以为不靠谱,无法作。可是咱们微软亚洲研究院就利用然语言处理的技术,尤为是机器翻译的经验,果断进军到中国文化里,这个在全世界独树一帜。大数据
在2004年的时候,当时咱们的沈向洋院长领导咱们作了一个微软对联:用户输入上联,电脑自动对出下联,语句很是工整,甚至更进一步把横批对出来。这个系统在当时跟新浪进行了合做,作成了一个手机游戏,用户能够经过发短信的方式,将上联发过去,而后经过短信接收下联。当时你们都以为颇有意思。微软对联也是世界上第一次采用机器翻译的技术来模拟对联全过程。过去也有人作对联游戏,都是用规则的方法写不少不少的语言学规则,确保什么样的词跟什么样的词对,并符合对仗、平仄一堆语言学的规则,可是实际效果很差,也没有人使用。网站
咱们把机器翻译技术巧妙用在中国文化上,解决了这个问题。在微软对联的基础上,咱们继续去尝试其余的中国文化,其中有一个特点就是字谜。ui
咱们小时候都爱猜字谜,领奖品。字谜是给你谜面让你猜谜底。固然也能够反过来,给定一个谜底,让你出谜面。如今,已经能够用电脑来模拟整个猜字谜和出字谜的过程了,咱们也把这个功能放在了微软对联的网站上。
日后,更进一步,咱们还会用人工智能技术来发展中国最经典的文化,包括绝句和律诗等。例如宋词有长短句,咱们也能够用一样的技术来创做律诗、绝句和宋词。
最近,微软亚洲研究院的主管研究员宋睿华博士就在用这种神经网络的技术来进行诗歌的创做。这件事很是有创意:用户提交一个照片,让系统进行,而后变成一首诗,自由体的诗。写诗是很不容易的,由于要体现意境。你说这是山,这是水,这不叫诗;诗歌必需要升华、凝练,用诗的语言来体现此时的情或者景,由景入情,由情入景,这才是诗。
不久前,微软小冰发布了微软小冰写诗的技能,引发了不少人的关注。咱们也在此基础上展现其余的中国文化,把人工智能和中国文化巧妙结合起来,弘扬中国文化。
“对话即平台”英文叫作“Conversation as a Platform (CaaP)”。2016年,微软首席执行官萨提亚在大会上提出了CaaP这个概念,他认为继图形界面的下一代就是对话,它会对整我的工智能、计算机设备带来一场新的革命。
●
●
而语音助手又能够调用不少Bot,来完成一些具体的功能,好比说定杯咖啡,买一个车票等等。芸芸众生,有不少不少需求,每一个需求都有多是一个小Bot,必须有人去作这个Bot。而于微软而言,咱们做为一个平台公司,但愿把本身的能力释放出来,让全世界的开发者,甚至普通的学生就能开发出本身喜欢的Bot,造成一个生态的平台,生态的环境。
如何从人出发,经过智能助理,再经过Bot体现这一辈子态呢?微软在作CaaP的时候,实际上有两个主要的产品策略。
第一个是小娜,经过手机和智能设备介入,让人与电脑进行交流:人发布命令,小娜理解并执行任务。同时,小娜做为你的贴身处理,也理解你的性格特色、喜爱、习惯,而后主动给你一些贴心提示。好比,你过去常常路过某个地方买牛奶,在你下次路过的时候,她就会提醒你,问你要不要买。她从过去的被动到如今的主动,由原来的手机,到微软全部的产品,好比Xbox和Windows,都获得了应用。如今,小娜已经拥有超过1.4亿活跃用户,在数以十亿级计的设备上与人们进行交流。如今,小娜覆盖的语言已经有十几种语言,包括中文。小娜还在不断发展,这背后有不少天然语言技术来自微软研究院,包括微软亚洲研究院。
第二个就是小冰。它是一种新的理念,不少人一开始不理解。人们跟小冰一块儿的这种闲聊有什么意思?其实闲聊也是人工智能的一部分,咱们人与人见面的时候,寒喧、问候、甚至瞎扯,天南海北地聊,这个没有智能是完成不了的,实际上除了语言方面的智能,还得有知识智能,必须得懂某一个领域的知识才能聊起来。因此,小冰是试图把各个语言的知识融汇贯通,实现一个开放语言自由的聊天过程。这件事,在全球都是比较创新的。如今,小冰已经覆盖了三种语言:中文、日文、英文,累积了上亿用户。不少人跟它聊天乐此不疲,而平均聊天的回数多达23轮。这是在全部聊天机器人里面遥遥领先的。而平时聊天时长大概是25分钟左右。小冰背后三种语言的聊天机器人也都来自于微软亚洲研究院。
不管是小冰这种闲聊,仍是小娜这种注重任务执行的技术,其实背后单元处理引擎无外乎就三层技术:
●
●
●
实际上,人类拥有这所有三个智能,并且人知道何时用什么智能,就是由于最上头,还有一个调度系统。你跟我闲聊的时候,我就会跟你闲聊;你跟我严肃地问问题,那么我就会回答你的问题。经过一个调度系统,能够想象,咱们在作人机对话的时候,实际上是在根据用户的提问调用不一样的引擎,再根据不一样的意图调用不一样的Bot。这样总体来实现一个所谓的人机交互全过程。这背后的技术由不一样的研究员分别去进行实施,而后再总体经过跟产品组合做体现一个完美的产品流程。
微软想把有关的能力释放给全世界,让每一个人都可以体验人工智能的好处,让开发者开发本身的Bot。可是开发者的机器不懂天然语言,怎么办呢?咱们就经过一个叫Bot Framework的工具、平台来实现。
任何一个开发者只用几行代码就能够完成本身所须要的Bot。这里有一个简单的例子,这我的想作一个披萨的Bot,他用Bot的框架,这几行语句填入相应的知识,相应的数据,就能够实现一个简单的定披萨的Bot。你能够想象不少小业主,没有这种开发能力,可是就是能够简单操做几下,就能够作一个小Bot吸引来不少客户。
这里面有不少关键技术。微软有一个叫作LUIS(Language Understanding Intelligent Service)的平台,提供了用户的意图理解能力、实体识别能力、对话的管理能力等等。好比说这句话“read me the headlines”,咱们识别的结果是他想作朗读,内容就是今天的头条新闻。再好比说“Pause for 5 minutes”,咱们理解它的意思是暂停,暂停多长时间?有一个参数:5分钟。因此,经过LUIS,咱们能够把意图和重要的信息抽取出来,让后面Bot来读取。
微软的聊天对话技术也在与不少企业合做,赋能这些企业。好比,咱们跟敦煌研究院合做。敦煌研究院提供出数据,咱们则把咱们的引擎加上去,很快就创建了一个敦煌研究院的客服系统,借助敦煌研究院公众号,可让用户和它聊与敦煌有关的事。用户也能够问问题,例如敦煌研究院何时开门、有什么好吃的,他能够把聊天、对话都集成在一个平台上,发挥人工智能在公众号上的做用。
阅读理解顾名思义就是给你一篇文章,看你理解到什么程度。人都有智能,并且是很是高的智能。除了累积知识,还要懂一些常识。具体测试你的阅读能力、理解能力的手段,通常都是给一篇文章,再你一些问题。你能来就说明你理解了,答不上来就说明你不理解。对电脑的测试也是这样。
我给你们举个例子,说明一下阅读理解。图7中,这一段话的大意是在介绍莱茵河,它流经哪些国家,最终在哪里注入大海。莱茵河畔最大的城市是德国科隆。它是中欧和西欧区域的第二长河流,仅次于多瑙河以后,约1230千米。而后,咱们问的问题是,什么河比莱茵河长?当你读完了这段话,你就要推断,“after”在这里是什么意思,从而才能得出正确答案是多瑙河。电脑要作这道题,实际上要仔细解析不少问题,最终才能做出回答。
最后,再介绍一下我对天然语言处理目前存在的问题以及将来的研究方向的一些考虑,供你们参考。
●
●
●
●
●
●
可是,咱们也清醒地看到,虽然有一些很好的预期,可是天然语言处理还有不少不少没有解决的问题。如下几个我认为比较重要的。
1.经过用户画像实现个性化服务。如今天然语言处理基本上用户画像用得很是很是少。人与人的对话,实际上是对不一样的人说不一样的话,由于咱们知道对话的人的性格、特色、知识层次,我了解了这个用户,知道用户的画像,那么在对话的时候就会有所调整。目前来说,咱们还远远不能作到这一点。
2.经过可解释的学习洞察人工智能机理。如今天然语言处理跟其余的人工智能同样,都是经过一个端对端的训练,而其实里面是一个黑箱,你也不知道发生了什么,哪一个东西起做用,哪一个东西没有起做用。咱们也在思考,有没有一种可解释的人工智能,帮助咱们知道哪些地方发挥了做用,哪些地方是错的,而后进行修正,快速调整咱们的系统。目前尚未针对这个问题很好的解决方案,尽管有一些视觉化的工做,可是都比较粗浅,尚未达到最精准的断定和跟踪。
3.经过知识与深度学习的结合提高效率。所谓知识和深度学习的结合,有可能不少状况下是须要有人类知识的。好比说客服,是有一些常见处理过程的。那么出现问题我该怎么解决?这些知识如何跟数据巧妙结合,从而加快学习的过程、提升学习的质量,这也是比较使人关注的。
4.经过迁移学习实现领域自适应。若是们想翻某一个专业领域,好比说计算机领域,可能现有的翻译工具翻得很差。因此你们都在研究,有没有一种办法,可以帮助机器进行迁移学习,可以更好的运用到语音自适应上。
5.经过强化学习实现自我演化。这就是说咱们天然语言系统上线以后有不少人用,获得了有不少人的反馈,包括显示的反馈、隐式的反馈,而后经过强化学习不断的提高系统。这就是系统的自我演化。
6.最后,我认为也是很是关键的,经过无监督学习充分利用未标注数据。如今都依赖于带标注的数据,没有带标注的数据没有办法利用。可是不少场景下,标注数据不够,你找人工标注代价又极大。那么如何用这些没有标注的数据呢?这就要经过一个所谓无监督的学习过程,或者半监督的学习过程加强总体的学习过程。这里也是目前研究上很是使人关注的。
本文由CSDN根据周明博士的演讲内容编写,已获受权转载