二十一世纪以来,因为国际互联网的普及,天然语言的计算机处理成为了从互联网上获取知识的重要手段,生活在信息网络时代的现代人,几乎都要与互联网打交道,都要或多或少地使用天然语言处理的研究成果来帮助他们获取或挖掘在广阔无边的互联网上的各类知识和信息,所以,世界各国都很是重视天然语言处理的研究,投入了大量的人力、物力和财力。
html
我认为,当前国外天然语言处理研究有四个显著的特色:网络
在过去的四十多年中,从事天然语言处理系统开发的绝大多数学者,基本上都采用基于规则的理性主义方法,这种方法的哲学基础是逻辑实证主义,他们认为,智能的基本单位是符号,认知过程就是在符号的表征下进行符号运算,所以,思惟就是符号运算。机器学习
著名语言学家J. A. Fodor在《Representations》[1]一书(MIT Press, 1980)中说:“只要咱们认为心理过程是计算过程(所以是由表征式定义的形式操做),那么,除了将心灵看道别的以外,还天然会把它看做一种计算机。也就是说,咱们会认为,假设的计算过程包含哪些符号操做,心灵也就进行哪些符号操做。所以,咱们能够大体上认为,心理操做跟图灵机的操做十分相似。”Fodor的这种说法表明了天然语言处理中的基于规则(符号操做)的理性主义观点。工具
这样的观点受到了学者们的批评。J. R. Searle在他的论文《Minds, Brains and Programmes》(1980,载《Behavioral and Brain Sciences》, Vol.3)[2]中,提出了所谓“中文屋子”的质疑。他提出,假设有一个懂得英文可是不懂中文的人被关在一个屋子中,在他面前是一组用英文写的指令,说明英文符号和中文符号之间的对应和操做关系。这我的要回答用中文书写的几个问题,为此,他首先要根据指令规则来操做问题中出现的中文符号,理解问题的含义,而后再使用指令规则把他的答案用中文一个一个地写出来。好比,对于中文书写的问题Q1用中文写出答案A1,对于中文书写的问题Q2用中文写出答案A2,如此等等。这显然是很是困难的几乎是不能实现的事情,并且,这我的即便可以这样作,也不能证实他懂得中文,只能说明他善于根据规则作机械的操做而已。Searle的批评使基于规则的理性主义的观点受到了广泛的怀疑。学习
理性主义方法的另外一个弱点是在实践方面的。天然语言处理的理性主义者把本身的目的局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经得到必定程度的成功,可是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。由于从天然语言系统所须要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。并且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的天然语言处理问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲座肯定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理将是天然语言处理在从此一个至关长的时期内的战略目标。为了实现战略目标的转移,须要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(即TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”,就是指以生成语言学为基础的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法。从中能够看出当前天然语言处理关注的焦点。当前语料库的建设和语料库语言学的崛起,正是天然语言处理战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,愈来愈多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。由于从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。测试
这种大规模真实的语料库还为语言研究的现代化提供了强有力手段。我在20多年前曾经测试过汉字的熵(即汉字中所包含的信息量),这是中文信息处理的一项基础性研究工做。为了计算汉字的熵,首先须要统计汉字在文本中的出现频度,因为70年代咱们尚未机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,我只得根据书面文本进行手工查频,用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行手工查频,从小到大地逐步扩大统计的规模,创建了6个不一样容量的汉字频度表,最后根据这些不一样的汉字频度表,逐步地扩大汉字的容量,终于计算出了汉字的熵。这是一件极为艰辛而烦琐的工做。现在咱们有了机器可读的汉语语料库,彻底用不着进行手工查频,频度的统计能够在计算机上进行,只要很是简单的程序就能够垂手可得地从语料库中统计出汉字的频度并进一步计算出汉字的熵。语言研究工做的效率成百倍、成千倍地提升了!尽管学问是从苦根上长出来的甜果,可是,现代化的手段不只能够帮助咱们少吃不少的苦,并且也还能把学问作得更好。手工查频犹如赶着老牛破车在崎岖的山路上跋涉,使用语料库犹如乘宇宙飞船在广阔的太空中翱翔。这是我从前根本不敢想象的。大规模机器可读语料库的出现和使用,把语言学家从艰苦繁重的手工劳动中解放出来,使语言学家能够集中精力来研究那些更加剧要的问题,这对于促进语言学研究的现代化具备不可估量的做用。url
传统语言学基本上是经过语言学家概括总结语言现象的手工方法来获取语言知识的,因为人的记忆能力有限,任何语言学家,哪怕是语言学界的权威泰斗,都不可能记忆和处理浩如烟海的所有的语言数据,所以,使用传统的手工方法来获取语言知识,犹如以管窥豹,以蠡测海,这种获取语言知识的方法不只效率极低,并且带有很大的主观性。传统语言学中啧啧地称道的所谓“例不过十不立,反例不过十不破”的朴学精神,貌似严格,实际上,在浩如烟海的语言数据中,以十个正例或十个反例就垂手可得地来决定语言规则的取舍,难道就可以万无一失地保证这些规则是可靠的吗?这是大大地值得怀疑的。当前的天然语言处理研究提倡创建语料库,使用机器学习的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。机器词典和大规模语料库的建设,成为了当前天然语言处理的热点。这是语言学获取语言知识方式的巨大变化,做为二十一世纪的语言学工做者,都应该注意到这样的变化,逐渐改变获取语言知识的手段。spa
2000年,在美国约翰.霍普金斯大学(Johns Hopkins University)的暑假机器翻译讨论班(Workshop)上,来自南加州大学、罗切斯特大学、约翰·霍普金斯大学、施乐公司、宾西法尼亚州立大学、斯丹福大学等学校的研究人员,对于基于统计的机器翻译进行了讨论,以德国亚琛大学(Aachen university)年轻的博士研究生奥赫(Franz Josef Och)为主的13位科学家写了一个总结报告(Final Report),报告的题目是《统计机器翻译的句法》(“Syntax for Statistical Machine Translation”),这个报告提出了把基于规则的方法和基于统计方法结合起来的有效途径。奥赫在国际计算语言学2002年的会议(ACL2002)上发表论文,题目是:《统计机器翻译的分辨训练与最大熵模型》(“Discriminative Training and Maximum Entropy Models for Statistical Machine Translation”),进一步提出统计机器翻译的系统性方法,获ACL2002大会最佳论文奖。翻译
2002年1月,在美国成立了Language Weaver公司,专门研制统计机器翻译软件(Statistical Machine Translation Software,简称SMTS),奥赫加盟Language Weaver公司,做为这个公司的顾问。 Language Weaver公司是世界上第一个把统计机器翻译软件商品化的公司。他们使用机器自动学习的技术,从翻译存储资料(translation memories)、翻译文档(translated archives)、词典(dictionaries & glossaries)、因特网(Internet)以及翻译人员(human translators)那里获取大量的语言数据,在这个过程当中,他们对这些语言数据进行各类预处理(pre-processing),包括文本格式过滤(format filtering)、光学自动阅读和扫描(Scan + OCR)、文字转写(transcription)、文本对齐(document alignment)、文本片断对齐(segment alignment)等。接着,把通过预处理的语言数据,在句子一级进行源语言和目标语言的对齐,造成双语并行语料库(parallel corpus)。而后使用该公司本身开发的“LW学习软件”(Language Weaver Learner,简称LW Learner),对双语并行语料库进行处理,从语料库中抽取几率翻译词典、几率翻译模板以及几率翻译规则等语言信息,这些抽取出来的语言信息,统称为翻译参数(translation parameters),这样的翻译参数实际上就是几率化的语言知识,通过上述的处理,语言数据就变成了几率化的语言知识。翻译参数是该公司翻译软件的重要组成部分。为了处理这些翻译参数,该公司还开发了一个统计翻译器,叫作解码器(Decoder),这个解码器是该公司翻译软件的另外一个重要组成部分,解码器和翻译参数成为了Language Weaver公司翻译软件的核心(core components)。解码器使用上述经过统计学习得到的翻译参数对新的文本进行机器翻译,把新的源语言文本(new source language documents)自动地翻译成新的目标语言译文(new target language translation),提供给用户使用。code
Language Weaver公司的翻译系统的工做流程以下图所示:
图1 Language Weaver 统计机器翻译软件工做流程
目前,该公司开发的汉英机器翻译系统和英语—西班牙语双向机器翻译系统即将问世。他们还要使用一样的方法,开发英语—法语的双向机器翻译系统、印地语—英语以及索马里语—英语的单向机器翻译系统。
2003年7月,在美国马里兰州巴尔的摩(Baltimore, Maryland)由美国商业部国家标准与技术研究所NIST/TIDES (National Institute of Standards and Technology) 主持的机器翻译评比中,奥赫得到了最好的成绩,他使用统计方法从双语语料库中自动地获取语言知识,创建统计机器翻译的规则,在很短的时间以内就构造了阿拉伯语和汉语到英语的若干个机器翻译系统。伟大的希腊科学家阿基米德(Archimedes)说过:“只要给我一个支点,我就能够移动地球。”(“Give me a place to stand on, and I will move the world.”)而如今奥赫也模仿着阿基米德说:“只要给我充分的并行语言数据,那么,对于任何的两种语言,我就能够在几小时以内给你构造出一个机器翻译系统。”(“Give me enough parallel data, and you can have translation system for any two languages in a matter of hours.”)[3]。这反映了新一代的天然语言处理研究者朝气蓬勃的探索精神和继往开来的豪情壮志。看来,奥赫彷佛已经找到了机器翻译的有效方法,至少按照他的路子走下去,使用机器自动学习的方法,也许有可能开创出机器翻译研究的一片新天地,使咱们在探索真理的曲折道路上看到了耀眼的曙光。过去咱们使用人工编制语言规则的方法来研制一个机器翻译系统,每每须要几年的时间,而如今采用奥赫的机器学习方法,构造机器翻译系统只要几个小时就能够了,研制机器翻译系统的速度已经大大地提升了,这是令咱们感到振奋的。
天然语言处理中愈来愈多地使用统计数学方法来分析语言数据,使用人工观察和内省的方法,显然不可能从浩如烟海的语料库中获取精确可靠的语言知识,必须使用统计数学的方法。
语言模型是描述天然语言内在规律的数学模型,构造语言模型是天然语言处理的核心。语言模型能够分为传统的规则型语言模型和基于统计的语言模型。规则型语言模型是人工编制的语言规则,这些语言规则来自语言学家掌握的语言学知识,具备必定的主观性和片面性,难以处理大规模的真实文本。基于统计的语言模型一般是几率模型,计算机借助于语言统计模型的几率参数,能够估计出天然语言中语言成分出现的可能性,而不是单纯地判断这样的语言成分是否符合语言学规则。
目前,天然语言处理中的语言统计模型已经至关成熟,例如,隐马尔可夫模型(Hidden Markov Model,简称HMM)、几率上下文无关语法(Probabilistic Context-Free Grammar,简称 PCFG)、基于决策树的语言模型(Decision-Tree Based Model)、最大熵语言模型(Maximum Entropy Model)等[4]。研究这样的语言统计模型须要具有统计数学的知识,所以,咱们应当努力进行知识更新,学习统计数学。若是咱们认真地学会了统计数学,熟练地掌握了统计数学,就会使咱们在获取语言知识的过程当中如虎添翼。
句法歧义问题的解决不只与几率和结构有关,还每每与词汇的特性有关。这里讨论两个问题。
⑴ PP附着问题:在英语句子中,介词短语PP能够作中心动词短语VP的状语,也能够作它前面名词短语NP的修饰语,到底是附着于VP,仍是附着于NP,这就是所谓“PP-附着”(PP-attachment)问题。PP-附着与词汇有着密切的关系。
例如,在句子 “Washington sent more than 10,000 soldiers into Afghanistan”中, 介词短语(PP) “into Afghanistan”或者附着于名词短语(NP) “more than 10,000 soldiers”,或者附着于动词短语(VP)“sent”(单独的动词也能够当作一个动词短语)。这里存在PP-附着问题。
在几率上下文无关语法中,这种PP-附着的断定要在下面的规则之间进行选择:
NP -> NP PP (PP附着于NP)
和 VP -> VP PP (PP附着于VP)
这两个规则的几率依赖于训练语料库。在训练语料库中,NP附着和VP附着的统计结果以下:
语料库 PP附着于NP PP附着于VP
AP Newswire (13 00万词) 67% 33%
Wall Street Journal & IBM manuals 52% 48%
能够看出,在两个训练语料库中,“PP附着于NP”都处于优先地位。根据这样的统计结果,咱们应该选择PP附着于NP,也就是选择PP “into Afghanistan”附着于NP “more than 10,000 soldiers”这个结果。可是,在咱们上面的句子中,介词短语“into Afghanistan”的正确附着却应该是附着于动词短语VP(“sent”),这是由于这个VP“sent”每每要求一个表示方向的介词短语PP,而介词短语“into Afghanistan”正好知足了这个要求。几率上下文无关语法显然不能处理这样的词汇依存问题。
⑵ 并列结构的歧义:
句子“dogs in houses and cats”是有结构歧义的:
图2 并列结构歧义
尽管在直觉上咱们认为图2中左侧树是正确的,可是,左右两侧的树所使用的规则倒是彻底同样的。这些规则以下:
NP -> NP Conj NP
NP -> NP PP
NP -> Noun
PP -> Prep NP
Noun -> dogs
Noun -> house
Noun -> cats
Prep -> in
Conj -> and
根据几率上下文无关语法的无关性假设,因为规则彻底相同,使用这些规则的几率相乘而计算出来的两个树形图的几率也应该是同样的。在这种状况下,几率上下文无关语法将指派这两个树形图以相同的几率,也就是说,几率上下文无关语法没法断定这个句子的歧义。
因而可知,尽管咱们使用数学,使用几率的方法,几率上下文无关语法在遇到词汇依存问题的时候就显得捉襟见肘、无能为力了,咱们还须要探索其余的途径来进一步提高几率上下文无关语法的功能,其中的一个有效的途径,就是在几率上下文无关语法中引入词汇信息,采用词汇中心语几率表示法,把几率上下文无关语法提高为几率词汇化上下文无关语法。
在理论语言学中,N. Chomsky最近提出了“最简方案”,全部重要的语法原则直接运用于表层,把具体的规则减小到最低限度,不一样语言之间的差别由词汇来处理,也很是重视词汇的做用。在语言学中出现了“词汇主义”(lexicalism)的倾向。在天然语言处理中,词汇知识库的建形成为了广泛关注的问题。美国的WordNet,FrameNet以及我国各类语法知识库和语义知识库的建设,都反映了这种强烈的“词汇主义”的倾向。
在这样的新形势下,天然语言处理这个学科的交叉性和边缘性显得更加突出了,咱们天然语言处理的研究者若是只是局限于本身原有的某一个专业的狭窄领域而不从其余相关的学科吸收养分来丰富本身的知识,在天然语言处理的研究中必将束手无策、到处碰壁。面对这样的形势咱们应该怎么作?是抱残守缺,继续把本身蜷缩在某一个专业的狭窄领域以内孤芳自赏,仍是与时俱进,迎头遇上,努力学习新的知识,以适应学科交叉性和边缘性的要求?这是我国天然语言处理工做者必须考虑的大问题。
我国天然语言处理虽然已经取得很多成绩,可是,与国际水平相比,差距还很大。天然语言处理是国际性的学科,咱们不能闭门造车,而应该参与到国际天然语言处理的研究中去,用国际的水平和国际的学术规范来要求咱们的研究。近年来,我国的天然语言处理工做者也到国外参加过一些第一流的天然语言处理国际会议,如COLING,ACL,LREC等,可是,在这些国际会议上,我国学者几乎历来也没有被邀请作表明当前最高研究水平而且引导计算语言学发展潮流的“主题报告”,咱们只能作表明通常水平的发言,或者在分组会议上讲一讲咱们的成绩和体会。这种状况说明,我国的天然语言处理研究,不论在理论上仍是在应用系统的开发上,基本上尚未什么重大的创新,尽管咱们的自我感受良好,但实在尚未什么特别值得称道的突破,咱们的研究,基本上仍是跟踪性的研究,不多有创造性的研究,固然更没有具备原创思想的研究了。所以,咱们不能夜郎自大,不能坐井观天,咱们只有努力学习国外的先进成果,遇上并超过国际的先进水平,使我国的天然语言处理在国际的先进行列中占有一席之地,以无愧于我国这个国际大国的地位。