华为诺亚方舟实验室主任李航:用漂亮的方式解决"污浊"的问题

非商业转载请注明做译者、出处,并保留本文的原始连接:http://www.ituring.com.cn/article/196610程序员

李航,华为技术有限公司诺亚方舟实验室主任,北京大学、南京大学兼职教授。他日本京都大学电气电子工程系毕业,日本东京大学得到计算机科学博士学位。曾就任于日本NEC公司中央研究所,任研究员,以及微软亚洲研究院,任高级研究员与主任研究员。李航博士的研究方向包括信息检索,天然语言处理,统计机器学习,及数据挖掘。他一直活跃在相关学术领域,曽出版过三部学术专著,并在顶级国际学术会议和国际学术期刊上发表过上百篇学术论文,拥有40项受权美国专利。算法

图片描述

机器学习的春天

“他说天然语言处理是“泥臭い”(污浊)的,用漂亮的方法是解决不了的;我说个人结论正好相反,正由于天然语言处理是“泥臭い”的,才必须用漂亮的方法去解决。"编程

问:您可否简单介绍一下本身的经历?服务器

我祖籍是天津,在哈尔滨出生,六岁时随父母到西安,小学中学都是在西安念的。高中毕业之后,考上西安交通大学。当时教育部有一个派遣本科生到国外留学的政策,我和全国各大高校的一些同窗被选拔去日本留学,咱们那批共有三十人。我在西安交大呆了半年之后,去长春学了一年日语,以后于1984年4月去了日本。微信

我在日本京都大学读的本科和硕士,毕业之后就去了NEC公司的中央研究所。在那里,一边工做一边学习,在东京大学得到博士学位。2001年6月回国,在微软亚洲研究院工做了十一年。2012年5月来到香港,至今在华为诺亚方舟实验室工做。网络

问:在京都大学学习的时候您是怎么进入到机器学习领域的?app

我接触人工智能仍是挺早的。我在京都大学本科的专业是电气电子工程,入学之后不久,有一个参观人工智能实验室的机会。学校安排了一个研究生做为个人tutor,领我去到他的实验室,碰巧他是作人工智能的。大概那个时候我才真正看到大型的电子计算机,机房里放着许多台LISP机器,叫SYMBOLICS,由波士顿一家厂商生产,在当时是很昂贵的。在参观的过程当中他们告诉我,他们专门研究计算机视觉、天然语言处理这方面的人工智能问题,我以为这挺有意思。刚巧那个实验室的学生们组织了一个读书会,因而我也跟着去听,可是基本上听不太懂,相关的知识积累太少,当时日语也不够好。机器学习

就这样,我本科期间对人工智能一直抱有浓厚的兴趣。后来大四的时候须要选实验室和方向,我就选了这个实验室。实验室的教授是长尾真(Nagao Makoto),副教授开始是辻井润一(Tsujii Junichi),后来是松本裕治(Matsumoto Yuji)。长尾老师研究天然语言处理和计算机视觉,辻井和松本老师主要研究天然语言处理,他们都作出了许多卓越的工做,在国际上享有很高的声望。(辻井老师后来去东京大学任教授,他是我在东大的博士导师)。到了这个实验室以后我就开始更多地接触人工智能,学习LISP语言,C语言,Prolog语言,开始作天然语言处理相关的研究,大四和硕士都是在长尾实验室度过的,研究课题是天然语言生成。工具

回到你提的问题,我那时接触的主要是传统的人工智能,对机器学习,特别是统计学习了解得并很少,只知道决策树算法ID3。固然,那时统计学习尚未兴起。性能

问:硕士毕业后,您就下定决心要从事人工智能方面的研究工做了吗?

也不是。我当时挺犹豫的,还不知道将来要作什么。虽然已经接触到人工智能,也作过一点研究,可是都很肤浅,也不知道可否持续下去。那时我有一个学长去开公司,我想要不要也去尝试一下。我也想过去美国读博士,也考了TOEFL。

毕业前夕,硕士同年级的同窗们组织去日本大公司参观,我就跟他们一块儿去了。咱们看了好几家公司,包括东芝、NEC、NTT、日立、富士通,当时是日本经济的鼎盛时期,这几家公司不只在日本,在国际上也作得很是好,他们的研究部门有很多优秀人才,也有很好的研究环境。日本有一个风气,你们通常都不肯意读博士,不少人读完硕士之后就到企业去工做,作研究,经过写论文这种方式拿博士学位,不多有人选择在学校读博士。我以为在企业作研究也不错,就跟另一个同窗一块儿去了NEC的研究所。

在NEC的头两年,我在天然语言处理小组工做,主要作的是天然语言对话的研究,也不写论文,主要是开发系统。我也没有作机器学习相关的研究,由于九十年代初的时候,人工智能、天然语言处理主流还都是基于手写规则的。我对本身的将来也仍是处于思考的状态,没有彻底下定决心去作研究。

在这段时间里,人工智能领域发生了巨大的变化,特别是天然语言处理发生了范式转移(paradigm shift),基于数据驱动、统计学习的方法展示出其威力,引发了普遍的关注。(后来的二十多年里基于统计学习的智能化成为人工智能的主流,而转折点正是九十年代初那个时期)。

坦率地说,我对传统的人工智能一直喜欢不起来,我从骨子里喜欢的是用漂亮的数学模型(principled approach)去有效地解决问题,而传统的人工智能的方法要么缺少数学模型,要么不能解决实际问题,老是让我感到哪里不对。跟我一块儿工做过的同事、同窗们,看过个人书籍、论文的同仁们,应该能感触到个人这一信念:基于数学且有效的方法才是科学的方法,是咱们应该追求的。我在高中时最喜欢、也最擅长的是物理,在我看来牛顿力学是科学方法论的第一个里程碑,而工程学也应该采起一样的方法论,走一样的路。当我看到IBM的Peter Brown等作的统计机器翻译的工做的时候,感到强烈的震撼与由衷的钦佩,也开始倾向采用统计学习方法去解决天然语言处理的问题。记得当时还跟天然语言组的科长“吵了一架”。他说天然语言处理是“泥臭い”(污浊)的,用漂亮的方法是解决不了的;我说个人结论正好相反,正由于天然语言处理是“泥臭い”的,才必须用漂亮的方法去解决。

1992年我换了组。从原来的天然语言处理组转到了机器学习组,科长是安倍直树(Abe Naoki)和山西健司(Yamanishi Kenji),他们在机器学习领域都作出了许多出色工做,是世界一流的研究人员,我从他们那里学到了不少东西,如今安倍是IBM研究院的主任研究员,山西是东京大学教授。也就是从那个时候开始,我从新温习了大学学过的几率统计学知识,系统地钻研了隐马尔科夫模型、决策树、最大熵原理、最小描述长原理(MDL)等统计学习方法,写过的笔记有十几本。

1992年也是我人生中的一个比较重要的时间点,那年我决定以研究做为本身的职业。领导咱们的部长叫中村胜洋(Nakamura Katsuhiro),他在我人生中的关键点上给过我不少重要的帮助。有一次我跟他聊,谈到本身将来的职业发展,他说:你还犹豫什么呀?我对你很了解,你就适合作研究,甭想别的了。

问:能介绍一下您作的博士工做吗?

从1992年到1998年得到博士学位这段时间,是我人生中最“苦”的时期,也是我在研究上成长最快的时期。咱们机器学习小组以研究机器学习理论为主,考虑两个应用领域:生物信息与天然语言处理。我负责天然语言处理的研究,目标采用统计学习的方法获取语义知识,用于天然语言处理,我也把它看成可能的博士研究的题目。1995年辻井老师调到东京大学任教授,我在他的指导下,开始把公司里的实际研究工做整理成为博士论文,NEC的中央研究所在东京附近,去东大也很方便,我就开始常常去辻井实验室,跟辻井老师讨论问题。
个人博士论文提出了用最小描述长原理(MDL)学习语义语言知识的三个方法,工做主要是跟安倍作的,在天然语言处理顶级杂志Computational Linguistics上发表了两篇论文,以前好像没有中国人在CL上发表过文章。辻井老师挺高兴,他说:嗯,作得不错,你们都说好。当时在天然语言处理领域里你们都知道这些工做,算是我研究生涯的起点吧。

博士毕业后,我打算去美国发展,山西阻止了我,但愿能跟他一块儿启动文本数据挖掘项目,在他的领导下,我开始作文本数据挖掘,我和另外两个工程师开发了问卷自动分析系统,当时仍是挺先进的,我负责算法的开发与实现。NEC的这个产品在日本被普遍使用,听说如今该产品还在销售。我和山西还在KDD会议上发表了一篇论文,介绍相关的工做。

问:能介绍一下您在微软亚洲研究院的工做吗?

2001年,我拿到了Xerox PARC的offer,准备去美国。微软亚洲研究院(MSRA)天然语言组的主任研究员黄昌宁老师邀请我去访问,并建议我考虑加入。第一任院长李开复博士提出了要将研究院建设成世界一流,亚洲第一的研究机构。这个愿景深深地打动了我,我因而决定回国,加入他们的行列。MSRA确实是了不得的研究机构,我有幸跟许多优秀的研究人员在一块儿工做,从他们那里学到了不少东西。

我在微软作研究主要仍是围绕着公司的产品需求进行。开始是作文本数据挖掘,以及企业搜索,比较偏产品开发。SQL Server 2005中的文本数据挖掘的工具就是咱们开发的,跟我一块儿工做的主要是曹云波博士。SharePoint 中的搜素功能也有很多咱们的贡献,2007年、2009年的版本里都有咱们开发的技术,胡云华博士、徐君博士在这方面作了不少工做。

后来微软决定作互联网搜索,咱们又把研究方向放到了互联网搜索,这期间我成为主任研究员,领导更大的研究团队。咱们在产品开发方面的成绩并不太理想,有一些产品转化,可是贡献都不太大。其中一个缘由是跟Bing的团队异地合做有很多困难。可喜的是咱们在搜索的基础研究上取得了很多成果,特别是排序学习(learning to rank),语义匹配(semantic matching)方面,有很多业界领先的成果,对信息检索领域的发展作出了必定的贡献。前者的研究主要是与刘铁岩博士、徐君博士、秦涛博士等合做,后者的研究主要是跟徐谷博士、徐君博士、姜大昕博士等合做。

问:有人把上世纪九十年代初形容为人工智能的冬天,在机器学习兴起以前,人工智能的发展遇到了瓶颈。您以为从此人工智能的发展有没有可能会重蹈覆辙?

正如前面介绍的,我也经历了那我的工智能的冬天。我1987年开始涉足人工智能领域,用的都是传统的方法,当时这个领域还很火。可是到了九十年代初期,传统的基于规则的人工智能遇到了瓶颈,最典型的就是专家系统,作不下去了。当时甚至有一个说法,计算机科学里面最没学问的就是人工智能。

我从1992年开始进入机器学习领域,有一种看到另外一片天地的感受。人工智能如今基本上全靠机器学习在支撑,机器学习虽然有不少局限,可是仍是如今实现智能的最有效手段。机器学习是会不断地发展的,人工智能也是如此,特别是如今的大数据为机器学习、人工智能提供了不少新的机会。这方面你们若是感兴趣,能够看看个人博客,个人一些观点写在里面。

人工智能的发展会有起伏,可是不会出现之前那样的冬天。由于如今基于机器学习的人工智能作出来的东西不少是实打实的,像谷歌的自动驾驶就是用机器学习作出来的。而八十年代的专家系统,真正实用的成果几乎是没有的。可是如今人工智能确实有点过热,你们对人工智能的期待太高,但这种现象会立刻冷却下来。人工智能发展可能还会出现起伏,可是会不断地发展,螺旋式地上升,不会回到之前那样的状态。

问:您曾经给出过这样一条建议,在选择大学的时候,第一是导师,第二是学校,第三是专业。您从导师那里得到最大的收获是什么?

长尾老师说,作研究必定要作本质的研究。就是你作的东西不能无关紧要,作研究不能够沉浸于自我知足,要作出真正有用的东西。其实作到这一点很不容易。他还说,不必定要去作难的研究,而是要去作有意思的研究。不少人误觉得难的研究就是好的研究,未必是这样,真正好的研究要有创新,要有价值,要有意思,这样的东西未必很难。这些作研究的基本原则对个人影响仍是很大的。

我在NEC的机器学习小组,只有六我的,你们都很优秀(我很不谦虚地把本身也放在里面了)。这个小组被认为是世界一流,日本最强的机器学习研究团队,后来咱们都相继离开了NEC, 如今大多数人在日本的大学当教授。那个环境对个人影响仍是很是大的。

到了微软之后,我在新的环境里又获得了不少锻炼。在日本的时候,我仍是跟着别人作,没有做为一个leader带领你们作,在微软期间,我在研究方向的选择,研究项目的管理方获得了不少锻炼,研究的能力有了进一步的提升。好比,怎样提升本身的影响力,怎样将产品开发与学术研究相结合,这些方面我在微软亚洲研究院学到了不少。那里有不少优秀的人,好比我入职时的院长张亚勤博士,后来的院长沈向洋博士,还有周围许多优秀的同事对个人影响都是很大的。

因此,我建议你们选学校的时候,先考虑小环境,而后是大环境,最后才是学的内容。

诺亚方舟实验室

“机器学习将来发展的方向,天然是不断提升学习的能力,先是触类旁通,而后举一反三,也要无师自通,最后是积土成山。”

问:在计算机领域学术界跟产业界是否存在转换的鸿沟?诺亚方舟实验室在这方面是怎么作的?

近年美国有很多的大学老师跳槽到工业界,由于工业界有不少现实的问题,有不少数据。不管作系统方面的研究或者算法方面的研究,在工业界都更容易接触到实际问题,也更容易去作实际的事情。Lada Adamic曾是密歇根大学的副教授,后来跑到Facebook去了,她写了一篇有名的博客《我为何离开了大学到了工业界》,在文章中她提出了以上的观点。可是,我并不以为计算机领域在大学作研究就失去了意义,在大学作研究有其价值与意义,须要更注重基础、理论、长期的东西,定位应该跟工业界不一样。

诺亚方舟实验室是工业界的实验室,咱们但愿能尝试去闯出一条新的作研究的路子。我写过一篇博客,总结科学研究的历程与模式。在牛顿的时代,很粗地说作研究是基于一些贵族的兴趣爱好。1900年开始有了诺贝尔奖,作研究与名誉挂上了钩。第二次世界大战以前,贝尔实验室成立了,研究与产业联系起来了(IBM、微软等采用的都是贝尔实验室模式)。二战结束以后,美国成立了天然科学基金,政府投钱去作研究,研究又跟金钱绑在了一块儿。到了1998年谷歌成立,又创造一个新的模式,在那里作研究跟产品开发几乎都无缝地链接在一块儿,区分不出来是在作研究仍是在作开发。

对于诺亚方舟实验室来讲,咱们但愿结合贝尔实验室模式与谷歌模式的优点。

一方面咱们采用谷歌模式,咱们跟产品线的工程师一块儿工做。好比,华为手机的应用搜索和应用推荐,算法是咱们实验室负责开发,这是咱们自豪的事情,咱们直接参与产品开发。咱们也有研究人员到运营商、到银行,跟工程师和客户一块儿作大数据挖掘的研究与开发。

贝尔实验室模式又是另一种,研究更加独立于产品,先是独立地去作研究,写论文,作一些原型,而后拿到产品去应用,推广。这种方法有它的优点,有利于作超前的技术,产品部门没有精力去作的技术。这种模式咱们实验室也采用。

咱们实验室运做的另外一个特色是聚焦和top-down,就是以一两个大项目为主去作。在大项目的驱动下,咱们去作研究。咱们也写一些论文,可是在大项目的范围内作,咱们也作技术转让或产品开发,但做为大项目的阶段性目标去作。咱们的规模不是很大,成立两年多,已经取得了很多业界领先的成果。咱们作的研究,其实都是围绕着一两个大的主线。

问:我据说大家作了一个利用迁移学习实现的智能系统MoKA,如今MoKA研究的进展如何?

智能化是将来手机的一个关键词,咱们固然在作这方面的研究,并且会一直作下去。华为去年在全球卖了7500万部手机,这么多用户,咱们终端部门的数据规模也是很大的,如何利用大数据把手机作得更加智能化是咱们研究的大方向。

华为手机去年推出了智能问答功能,就是一个具体例子。用户能够用天然语言问各类手机使用相关的问题,这个功能只有华为手机有,用户很喜欢,咱们的用户数在不断上升。相关的技术都是诺亚方舟实验室开发的。

问:MoKA系统在大家的研究战略中是什么位置?

在MoKA项目里咱们目标开发的是将来的智能化手机,这是咱们一直要去作的。

问:迁移学习和终生学习,在诺亚方舟实验室是一个研究重点吗?

是的。我想谈谈我对的机器学习能力的分类。人工智能创始人之一的Herbert Simon曾说过,当一个系统经过某个过程提升了某方面的性能的时候,这个系统就进行了学习,它就具有了学习能力。

若是是“循规蹈矩”的系统,它就不具有学习能力。程序员写一些规则放在系统里,系统按照规则去作,告诉它怎么作就怎么作,咱们说这个系统就不具有学习能力。传统的计算机系统都是这样的。一个能学习的系统,它至少具有泛化能力,就是可以“触类旁通”。好比看到一些照片上的人脸,它能学一个模型,而后作预测、作判断,指出没见过的照片里是否是有人脸,这就叫有泛化能力。

可是为何人工智能、机器学习还没达到人的水平?如今机器学习能作到的触类旁通,就是泛化,比起人来讲还差得很远。人可能看三个例子就可以学会,机器可能看三千个也学不会,它须要三万个、甚至三十万个。
另外,人的学习能力更强的一点是“举一反三”。好比说我学了游泳,也许能帮助我去学体操,甚至能帮助我去学跳舞,学习的知识、技能从一个地方扩展到另外一个地方,这就是迁移学习的思想。如今的机器学习还不太可以作到举一反三,迁移学习的研究有了必定进展,可是还有不少挑战。诺亚方舟实验室前主任杨强老师是世界著名的迁移学习专家,作出了许多领先的工做。

再进一步,计算机就是要不断地去学习,如今的机器学习还有一个弱点就是不能将学到的知识积累起来,不断扩大本身的能力,也就是不能“积土成山,积水成渊”,这个系统学完了这部分就只会作这些事,那个系统学完了那部分也只会作那些事,两个不能结合起来。我认为这就是终生学习要解决的问题,如今业界开始作一些研究。

人还有一个学习能力,就是“无师自通”,这对应着机器学习中的非监督学习,比起监督学习,机器的非监督学习能力还颇有限,也就是说,没有指导机器很难学到相应的知识。

因此说机器学习将来发展的方向,天然是不断提升学习的能力,先是触类旁通,而后举一反三,也要无师自通,最后是积土成山。还有很长的路要走。诺亚方舟实验室对这些问题的研究都很重视,都会投入。

问:实验室是否也在从事深度学习的研究?

咱们也很关注深度学习,并且对深度学习进行了深刻的研究,最近也有不少突破性的成果。

如今深度学习的一个热点就是用深度学习去作天然语言处理和知识推理。这也是咱们研究的一个重点,最近取得了业界瞩目的成果,吕正东博士等在作相关研究。好比用深度学习提升机器翻译的性能,翻译评价的一个指标叫BLEU Score,人大概能够打六七十分,机器如今能作到四十来分,提升一两个点都不容易。咱们如今利用深度学习的技术,机器翻译的BLEU Score比去年顶级会议ACL最佳论文的算法提升了两个点。另外咱们也在用深度学习去作天然语言对话,目标是让计算机可以跟用户用天然语言进行交流,这方面咱们是较早开始作的,应该是业界领先的。

问:谷歌、百度这样的公司他们的搜索引擎上的数据量很是大,诺亚方舟实验室在研究方向上跟他们是否有较大差别?

华为的主要业务是通讯设备,手机,还有数据中心、服务器,简单的说就这三大部分。咱们的业务跟谷歌、百度不同,因此也很差直接比较。

首先通讯方面,那才是真正的大数据,其实谷歌、百度的数据都是在通讯业的管道里面传输的。好比,北京有不少数据中心,数据中心之间的传输其实都是经过电信网络的,不少由华为提供设备。这里面有不少大数据的挑战。手机方面,华为有1亿多的注册用户,华为终端云上积累的数据也是很是大的。

问:诺亚方舟实验室的口号是“From Big Data To Deep Knowledge”。请问实验室在数据挖掘方面是否有一些突破性的或者是启发性的研究成果?

我刚才提到了利用深度学习作天然语言对话,咱们的系统在一轮的对话中的准确率能达到70%以上,这个用深度学习构建的系统说出来的话(本身说出来的,系统历来没见过的),能让你以为很吃惊。好比你说“占中终于结束了”,它跟着会说“下一个是否是陆家嘴?”。你说“我想买一个三星手机”,它会说“仍是支持一下国产手机吧”。它从大量的数据里面学到这种对话能力,其语言使用的复杂程度已经超出了咱们的想象。

问:您写过一篇谈优秀工程师的文章。您曾经考虑过作工程师,后来您投身到科研,成为NEC的研究员,微软亚洲研究院的主任研究员,诺亚方舟实验室的首席科学家,如今是实验室主任。您的工做是否跟作工程师有很大不一样?

我其实很喜欢编程,虽而后来随着工做性质的转变,写代码的机会愈来愈少。刚才提到,在NEC作研究的时候,咱们作的产品里面的算法部分都是我写的,那个产品如今还在卖,虽然他们可能重写了代码,可是至少初版的核心算法是我写的,仍是颇有成就感的。后来到了微软,我更多的时候是领着你们去作,没有时间本身动手了,是一件遗憾的事情。咱们作的技术用在了很多产品上,包括SQL Server,以及SharePoint Search。能和你们一块儿作出这些产品我很自豪,但愿有不少用户使用并且喜欢,有了这种体会才写了“如何作优秀的工程师”一文,但愿本身能站在用户的角度真正解决实际问题。

我曾经在博客中写过,作研究时候的思惟方式和作工程师的思惟方式应该是不同的。你们很容易混淆,有时候不知道本身应该处在哪一种状态,结果确定是作很差。作研究,须要可以更抽象、更长远地看问题,解决更本质的问题,这是基本的定位,若是光是把一个实际问题解决了,确定是不合格的。而作工程正好相反。

问:您以为作科研工做的时候需不须要有作产品的思惟?

须要,在大学须要(假设是计算机专业),在工业界更须要。在企业作研究,仍是要有应用意识,商业意识的。须要想到作的东西大概运用在商业上可能会知足什么需求,能解决什么问题,有什么价值,大概是什么定位,不能脱离了这些。虽然不须要去考虑产品化细节上的问题,可是你须要考虑,这种技术对于用户来讲解决的最本质的问题和需求是什么,是否有用。

问:那您如今做为诺亚方舟实验室的主任,角色跟之前又不同了吧?

是的,我要负责整个实验室的研究工做,带领你们一块儿去作。

创建诺亚方舟实验室是咱们老板任正非提出来的。他在2011年,就预见到了大数据对将来产业发展的重要性,决定创建一个实验室专门作大数据、机器学习、人工智能方面的研究,那仍是在大数据热潮到来以前。咱们的目标是成为世界一流的实验室,克服信息洪水的挑战,为公司和人类创造美好的将来,也就是为何咱们叫诺亚方舟实验室的缘由。受到这个愿景的吸引,杨强老师、我、还有一批研究人员加入了华为。

咱们实验室的一位研究员曾经问我:咱们的竞争对手是谁?我说:是咱们本身。要作出世界一流的研究成果,咱们要不断提升本身,从优秀到卓越。咱们所面临的都是人类的技术挑战,是否可以一步一步打败困难,取得重大突破,主要看咱们本身是否足够强大。咱们是有不少挑战的,可是咱们有信心作出世界领先的、有重大贡献的研究。


更多精彩,加入图灵访谈微信!

图片描述

相关文章
相关标签/搜索