[转]对当前天然语言处理方法论中的一个疑惑

时间 2019-11-17

标签当前天然语言处理方法论一个疑惑繁體版

原文原文链接

周锡令
xlzhou@btamail.net.cn
2001-11-8编程

在大多数状况下，我习惯于研究远离咱们主观世界的客体。典型的例子是“天体”。在研究的过程当中，使用的方法是“创建模型”。研究的进展过程主要表现为“模型的逐步求精”。编程语言

好比说，最开始只对两个天体组成的系统模型进行研究，研究的结果与实际的数据基本符合，可是有微小的差别。因而，咱们进一步考虑距离较远的第三个星体所产生的摄动做用，如此这般，使得咱们创建的模型愈来愈接近实际状况。.net

对于力学世界，也有相似的现象，最开始创建牛顿力学，它和常规的世界符合得很好；可是当物体的运动速度逐渐接近光速时，又不少现象没法解释，因而进入了相对论修正。对象

在天然语言处理工做中，咱们好像也是采用相似的方法。咱们创建了一个又一个语法模型，但愿将尽量多的语发现象笼括在内。可是和力学、电学等领域相比，所得的结果老是很不能使人满意。对此，咱们老是把缘由归结为：天然语言太复杂！开发

咱们好像忽略了一个很重要的事实，那就是：像“天体”、“集成电路”……这类客体是“彻底自立于咱们主观世界以外”的，咱们用来研究它们的大脑和这些被研究的对象是彻底分开的。研究它们时，用不着为咱们本身的大脑的工做过程创建模型。而和“天体”、“集成电路”……这些客观对象不一样，天然语言自己彷佛够不上一个完整的研究对象。做为一个有价值的完整的研究对象，参与其运行机制的主要方面都应该包含在内。数学

举例来讲，若是有如下一个通信系统：语法

图中的车载计算机经过无线电讯号向接收设备发送讯息。因为各类缘由，信号常常受到干扰。所以发送时在信号中添加了偏差校订码，而接收设备则拥有根据偏差校订码校订错误的设施。咱们在研究这个系统时，必定会总体地从信号的发送、传输、干扰、接收、校订的全部环节来考虑。若是抛开接收这头的校订环节，单纯研究信号的格式、统计规律，必定会得出千奇百怪、没有太多价值的结果。程序

然而在研究天然语言时，咱们正是采起了这种奇怪的研究方式。天然语言是在人群中为了交流思想而产生和不断发展的。语言传递思想或信息的机制既蕴藏在语言内部的结构，也隐含在人的大脑解读语言中所包含的符号系列的过程当中。但是咱们只研究语言自己！方法

所以对于天然语言传递信息的运行机制，不能单单研究语言自己。原则上，应该把“人的大脑的处理语言的过程”也包含在所研究的系统内，这样才能有结果。技术

固然，研究大脑解读语言的过程很困难。可是，若是咱们所以就彻底放弃这一十分重要的方面，只是在语言的形式结构方面越钻越细，咱们会不会永远也得不出结果？

目前咱们固然还不可能提出大脑的所有模型。可是能够为大脑在理解天然语言时最重要的一个环节先拿出来研究，这就是解惑：补充语句中的缺失部分、纠正结构中的倒错部分。展开来讲，就是：

把天然语言中的语句或者句群当作“含有多处含糊性”，“能够有多种解读方式”的符号系列，而后利用“知识”，借助“语义合理性准则”从中选出最合乎情理的一种解读方式，能够当作是为“大脑解读语言的过程”所创建最初级的模型。

“语法”和“语义”的第一个结合点是否是就在这里？

根据我现阶段的理解，HNC团队一直在这个方向上努力。固然，这个任务决不是垂手可得的。因为这条道路涉及全体人类在所有历史上积累下来的知识的表达和应用，沿着这条道路前进的工做着好像面临着数学上使人生畏的无穷大问题。所以，要在这个方向上得到进展、并能获得社会的认可，十分关键的一点就是：充分意识到任何工程都是有边界的，任何技术手段所能解决的问题都是有限的；从而明确有限目标，并睿智地划分工程的不一样实现阶段。

最后，咱们不妨来对比一下计算机编程语言。在发展这类语言时，历来就是把计算机对语言的处理能力联系在一块儿研究的。因为现阶段的计算机基本上没有解惑能力，因此这类语言基本上不容许有含糊性，书写出来的程序在语法上不能有丝毫差错。样样事情都要交代的明确，没有不符合语法或者模棱两可的地方。我说“基本上”是由于当代的计算机也不是绝对没有一点解惑能力。例如，不少人书写HTML程序的时候，每每没有严格听从语法的规定。对于这种状况，实际的HTML解释程序每每可以“正确地加以理解”，也便可以在一顶程度上自动加以补充或改正。而不一样公司开发的HTML解释程序的解惑能力也有程度上的差别。