3天然语言设计
3.1动物的语言对象
3.2天然语言blog
3.2.1英文语法考察递归
3.2.2中文语法考察字符串
3.2.3乔姆斯基的语言观数学
前面只就英文与中文进行了简单的描写,这固然不能反映人类语言的全貌。世界上有多少种语言并无统一的说法,咱们估计为4000种左右。对这些不一样语种,只是进行类型划分也是困难的,没有一种分类能让每一语种只归属于一个类型下。常见的一种划分是将语言分为分析型与综合型:程序设计
1) 分析型。现今主要的语种都是分析型的,特色:构造不一样类型的语法实体,依靠不一样类语法实体的配置组合来表达复杂的语义,句子是表达的核心。基础
2) 综合型。主要指美洲印弟安语系的一些语种,特色:分析型语言里用多个词汇组成的句子,综合型语言里用一个词来表达,这个词以动词成份为中心,再附加众多不一样的词缀,词缀同时有的实指的意义与语法的意义。配置
按上面的标准,典型的分析型语言与典型的综合型语言间还能够再细分一些中间形态的语言,分析型的语言可进一步划分为:语法
像其它的社会科学同样,今天的语言学也充满了争论,基于不一样的观点语言学界造成了不一样的学派。,当前较有影响的一个学派是美国语言学家诺姆·乔姆斯基(Avram Noam Chomsky,1928-至今)开创转换-生成语法学派。
乔姆斯基把语言分为语言能力与语言行为二方面(至关于索绪尔的语言与言语,参见第4章)。语言能力追溯至生理上人类智力里已有的“广泛语法”,广泛语法加上不一样的参数造成各类具体的人类语言,这些参数是由历史选择与积累的,并体现为社会拥有的母语的特征、使用规则、甚至直觉。语言行为是语言的具体使用与结果。传统语言学是从语言行为研究语言的,在乔姆斯基看来这是经验主义的作法。乔姆斯基的语言学是以语言能力为研究对象,指望经过对语言能力的研究能够解释人类语言的习得机制。相对于经验主义,乔姆斯基语言研究具备理性主义色彩,乔姆斯基构建形式的符号系统,经过符号系统规则的递归应用,能够从基本的词库生成全部人类语言语句,包括已有的语句以及潜在无穷的语句。而后经过对这个符号系统的逐步求精能够认知到人类的语言能力。
转换生成的理论目前仍处于探索与变更之中,最复杂时包括语类、转换、语义,语音四个子系统以及由深层到表层的多个层次,最新的努力是在追求最简的方案。咱们考察的是乔姆斯基理论早期的短语语法。短语语法的生成规则可图示以下:
图中的每一符号表示一个语法类别,最下面竖线表示每一叶子的类别会由具体词汇替换。
S :表示一个待定句子
NP :表示一个名词短语
VP :表示一个动词短语
Det :表示一个定冠词
AP :表示一个形容词
N :表示一个名词
V :表示一个动词
示意来讲,一个句子经过下面的程序进行替换改写生成。
第一步:初始S
第二步:S=NP+VP
第三步:S=DET+AP+N+VP(替代NP)
第四步:S= DET+AP+N+V+NP2(替代VP)
第五步:S= DET + AP + N + V + DET + N(替代NP2)
第六步:具体的单词替换上面各位置值,获得具体句子
其中S=NP+VP、NP=DET+AP+N、VP=V+NP、NP=DET+N中右边表达式对左边表达式的替换,以及实际单词对(N、V、AP、DET)的替换就是乔姆斯基理论的语法规则。
短语语法也称为0-型文法,或无约束文法。一门语言里若是构建一个规则集:P,P可以生成符合语法的全部语句,或者能判断每一语句是否符合语法,这个P称为一个文法。“文法”一词在这里可与“语法”一词通用。除0-型文法外,乔姆斯基及后人还研究了其它的三种文法,并将这些文法理论形式化。P中每一规则可表示A->B,即出现A时能够用B替代,若是B字符串长度大于A,也称为产生式规则。可以出现于全部A->B规则的A与B位置的字符,称为字母表,天然语言里也就是词汇表,再加上如NP、VP这样的语类的变项。字母表为非终结符号与终结符号,终结符号是不能再分解的符号,好比说标点符号,终结符造成的集合表示为∑。把终结符反过来理解就是非终结符,非终结符的集合表示为N,N交∑为空集。每一次生成过程,能做为起始的非终结符号称为识别符号,好比语句类型的变项,识别符号造成的集合表示为S,S是N的一个子集。这样一个形式的语言可表示为:
G=(N,∑,P,S)
字母表+P={语言里全部的语句}
四种文法从0-型文法开始,每一文法在前一文法基础上增长对P的约束获得,增长的约束能够是针对产生式P的左边,也能够是右边:
语法形式:A->B
约束:
P中至少有一规则A位置出现非终结符号
在知足约束的条件下,A无条件改写为B
语法形式:XAY—>XBY
新增约束
|A|<=|B|:绝对值符号表示字符长度
且,B位置不能出现S集中字符
在知足约束的条件,A改写为B,当A位于左边是X右边是Y的序列中
语法形式:A—>Z
新增约束:
A位置有且仅有一个非终结字符
在知足约束的条件下,A无条件改写为B
语法形式:A→ Αb /A→ Bα /A->a。
新增约束:
出如今B位置上字符最多只能是二字字符,两个字符时必须一个为非终结符,另外一个为终结符(小写字母),而当只有一个字符时,必须为终结符。
在知足约束的条件下,A无条件改写为Αb、 或Bα、或a。
乔姆斯基的理论并不适合直接做为天然语言的模型,这也不是评价他理论的方式。乔姆斯基的研究,至少早期的研究中,语义、语用这些方面并非研究的重点,他是从生成性方向进行抽象,数学化地研究语言,但愿可以解释天然语言的无限生成性,他的观点简单地来讲就是:语言是递归的替换。在他的理论视角下,他的理论是成功且富于启发的。
后面会讲到,在不依赖于经验语义的人工语言领域,如计算机程序设计语言,乔姆斯基的理论是真实的理论基础。乔姆斯基理论的另外一价值是:将语言的机制与机器关联了越来。四种文法正好对应了四种自动机:无约束文法对应图灵机;上下文有关文法对应线性有界自动机;上下文无关文法对应下推自动机;正则文法对应有效状态自动机。相关的概念后面有更多的讨论。