数学之美札记：天然语言处理——从规则到统计

时间 2019-11-17

原文原文链接

天然语言的处理，主要是实现人与计算机之间用天然语言进行有效通讯的方法和理论，它经历了从规则到统计的阶段，所谓规则，是指根据定义的语法进行语言的处理，所谓统计，是指IBM为解决语音识别问题提出的天然语言处理的方法，基于统计学。网络

1946年，现代计算机诞生，人类开始考虑经过计算机来处理天然语言，主要涉及两个认知方面的问题：第一，计算机是否能处理天然语言；第二，若是能，它处理天然语言的方法是否和人类同样。现代天然语言处理的高速发展，说明了这两个问题的答案都是确定的。测试

计算机科学之父阿兰·图灵最先提出了机器智能的设想，同时也提出了一种来验证机器是否有智能的方法：让人和机器进行交流，若是人没法判断本身交流的对象是人仍是机器时，就说明这个机器有智能了。这就是著名的图灵测试（Turing Test）。人工智能

1956年夏，28岁的约翰·麦卡锡，以及同年龄的马文·明斯基，37岁的罗切斯特和40岁的香农，他们4人提议在麦卡锡工做的达特茅斯学院开了一个被他们称为“达特茅斯夏季人工智能研究会议”的头脑风暴式的研讨会。参加会议的还有6位年轻的科学家，包括40岁的赫伯特·西蒙和28岁的艾伦·纽维尔。spa

在此次研讨会上，这10我的讨论当时计算机科学还没有解决的问题，包括人工智能、自认语言处理和神经网络等。人工智能这个提法即是在此次会议上提出的。这10我的中，后来出了4位图灵奖得到者（麦卡锡、明斯基、西蒙和纽维尔）和信息论的发明人香农。设计

达特茅斯会议的意义超过10个图灵奖。遗憾的是，受历史的局限，这10个世界上最聪明的头脑一个月的火花碰撞，并无产生什么了不得的思想。这是由于在当时，全世界对天然语言处理的研究都陷入了一个误区。orm

基于规则的天然语言处理，指的是对天然语言的语法规则、词性和构词法等给这，使用计算机语言进行描述。而对于语义的研究和分析，语义比语法更难在计算机中表达出来。科学家们设计了一种简单的天然语句的语法分析器，但愿经过对天然语言语法全面的归纳，来逐步解决天然语言理解的问题。对象

但很快就出现了问题，一些语句在不一样的使用环境下有不一样的语义。这就须要不断的增长新的语法规则，并且即便写出了涵盖全部天然语言现象的语法规则集合，经过计算机来解析也很是的困难。在20世纪70年代，基于规则的天然语言处理遇到了瓶颈，这么多年的努力也被认为是失败的。数据挖掘

1970年之后统计语言学的出现使得天然语言处理重获新生。有一段关键的历史，IBM为了解决语音识别的问题，提升当时的语音识别率，采用了基于统计的方法，这使得语音识别从实验室走向了实际应用。在基于统计的语言处理出现以后，基于规则和基于统计的争论一直持续了15年左右，随着网页搜索和数据挖掘技术的出现，在客观上大大加速了天然语言处理研究从基于规则的方法到基于统计的方法的转变，最终以基于规则的天然语言处理得到了胜利。计算机科学