3.2.4符号的组合(1)

3天然语言学习

3.1动物的语言设计

3.2天然语言对象

3.2.1英文语法考察blog

3.2.2中文语法考察递归

3.2.3乔姆斯基的语言观游戏

3.4符号的组合事件

组合字符串

若是只用一个词汇来描写天然语言最根本的机制,会是“组合”一词。乔姆斯基的产生式,右边字符串长度大于左边,就是组合的一种表示。组合是很容易观察到的,虽然对它的准确解读并不容易。语言学家常常用层次分析法或直接成分分析法对语言单位进行层次、结构、成分的分析,效果是线性的字符串语句可显示为树形的展开,叶子结点为一个个词汇。直接成分分析法用其创始人美国语言学家布龙菲尔德Leonard Bloomfield,1887.4-1949.4)所举的例子,Poor John ran away这一句子最终分析为(((Poor)( John))((ran)(away)))四个单词。拆分的过程以下:基础

 

直接成分分析又称为二分法,直接成分也就是偏正结构中的中心词,本例中是Poor John中John,ran away中的ran。通常地说,天然语言语句的表达都是这样的输出:ABCDE,并可拆分为A、B、C、D、E多个部分,每一个大写字母表示一个词汇,拆分的顺序与层次依据方法不一样而不一样。表现于口语上,人类一次表达发出的声音能够拆分红多个不一样的音段;表现于书面语,每一次的表述最终可拆分为多个不一样的字或词。ABCDE的各部分A、B、C、D、E可出现于其它的语句中,其它语句能够是:AXYZ、XBCWS、ABCFE……。语法

人类使用符号要面对的第一个问题是:要指称或描写的内容是无限的,并且咱们也能知道存在无数咱们如今还不知道的事物、现象。咱们不可能像动物那样为每个须要表达的内容独立构造一串声音或其它媒介形式,表达不一样内容的声音或其它媒介形式相互间没有什么关系,各自独立地存在,每次的使用都是一次单一的操做。换句话说,只有命名的方式是不够的,这里命名包括用词汇指称一次简单的对象,或者用词汇指称一个复合的现象,这并无自然的限制。

最初,可能只是把容易联想其组合意义的二个声音放在一块儿说出来,当这个过程开始后,人类天然语言就开始获得塑造。从语用来讲,组合与命名会造成分工。能够给每一类事物命名,对于分类下一具体事物,除非自己很重要,不然不会单独给予名称。能够经过组合来指称分类下一个具体的事物,好比“距离太阳最近的星球”来指称水星。一个家庭从祖先x、y开始,理论上其绵延不绝的后代均可以由“儿子”、“女儿”二个词,再加上序数词以递归的方式来指称:第一(儿子(x、y)),、第二(女儿(x、y))、第二(女儿(第一(儿子(x、y))))、第一(儿子(第二(女儿(x、y))))……。利用组合的方式也能够指称一个类别,如“吃草动物”。咱们对动做、关系、属性……都只是抽象地命名,在组合中直接应用这些泛指的符号,经过上下文语境获得具体语义。这些策略大大缩减了须要命名的符号。麻烦在于咱们也常用多义词的策略。

最重要的分工是:给现实中可区分出的事物、属性、关系等要素的类别赋予名称,就能够经过组合来描写事物参与的现象、事件,以及现象、事件的发展变化。对于现象、事件这样的意义咱们不须要直接给予名称,组合是更适合的描写方式,这在更大程度上减小了独立命名的须要。从语法上说,一门具体的天然语言不必定彻底按上面描述的方式使用,这只是一个趋向,不倾向于此趋向的天然语言需以其它方式达到一样的效果,本质上很难想象其它不一样的方式。组合就是天然语言的表现力所在。对组合的使用,符号组合与表达意义的互配。塑造了多数天然语言的格局,产生了语言的使用规则,今天所说的语法。

咱们按规则组合所造成的表述,特别适合于咱们经验世界的描写。同时咱们也能够说出或写下这样的语句:“三足兽展开翅膀,飞向月亮”;“暗物质闪耀着黑色的光芒”,这不是咱们见过的真实景象,但语句是合乎语法,能够被理解的。咱们能够组合出与此时此地此物此事不相符的符号组合,表示咱们的猜想、想象,或者就是幻想。天然语言的表述与其说是由内容决定的描写,不如说是主动的意义生成,只是这种生成用于对现实进行表述时必须能实现符号表述与语义的一致对应,至少要能接近这一目标。

语言符号组合的结果是符号的先后排列,解读时会分解为层次、结构、规则等。就呈现形式而言,语言具备线性特征。线性排列产生语序,多数的语言将语序做为重要的语法手段,好比汉语里说“老虎吃狮子”与“狮子吃老虎”二个句子,它们构成成分都相同,意义彻底不同,这种不同就是由语序体现出来的。线性对口语是必然的。在文字的通常的应用中,咱们在纸的二维平面经过肯定一个顺序,如从左至右,再从上至下的顺序,创造一个线性序列来等效口语,咱们把这看做历史沿袭,当前文字应用的一个特征,但不认为是纸面应用的必然。

层次

语句进行层次分析或直接成分分析时,分解出下级层次的成分,自己是不一样类型的语言单位,这些语言单位在语言里也呈层次的分布,这是咱们前面对英语与中文的讲解时说到的:

5句子(包括:小句、单句、复合句)

4复合词/词组

3字/词(包括基础字、词、合成词、派生词)

2词根词素/偏旁部首

1视觉构件(字母、笔划)

视觉构件层次以上,每一层次的语言单位又称为不一样的语法实体。第三、4层能够理解为命名获得的符号,命名所用的名称能够是经过已有符号组合获得,这提供了一种可论证性。分层机制实现了表达形式潜在数量几何级数的增加,能够更容易应对表现内容的无限性。天然语言到了语句一层,可组合出的形式理论上是无限多的,这让咱们平常生活中的天然语言应用驾轻就熟。

借用分层的概念,咱们可虚拟一种经济的语言模型。咱们先忽略第1层的内容,而后从新定义语法层级。咱们把字或词做为0阶的单位。把0阶的单位经过组合、复合出的单位做为1阶单位,把0阶、1阶的单位组合、复合出的单位做为2阶单位,以此类推,总体最好是有5阶层级。阶层系统应该这样构造:阶层数越低,其语法实体的数量越少,其语法单位统计上使用频率越高。从低阶层到高阶层组合的规则最好是各个阶层之间通用的(注:汉语基本作到了这一点),且数量越少越好。每一阶的单位加上表述性均可成为表述层级的语句,若是须要表述层级可附加尽可能少的规则。设计出这样的系统,学习记忆的负载将最小化,只是这种设计的现实意义不大。天然语言是一个意义的发生系统,好比说词汇的出现是由人类的认知决定的,不是语言上的设计,组合的规则同时也兼有意义模式的做用,不可能一味地删减。另外语言是一种文化的载体,惰性是其特征。语言也常常类比为一种制度,制度特性是各个方面的此消彼长,减小命名词汇的数量,反过来不必定能控制复合的阶数,即在一个向度的强化就可能弱化另外一向度。

句子层次以上还能够划分红以下的层次:

9丛书

8分册(书)

7章节

6段落(也称:句群)

这些层次也称为语篇层级,它们再也不认为是语法实体,由于在这个范围内没有对应的语法规则。连续的多个语句,它们在在语法层面是各自独立的,合理要求是它们在语义层面是连续的,但这种连续性是由人把握的,并无通用的标准,除非应用了逻辑。

组合与分层的说法包含着一个意思:基础词、派生词、合成词、复合词、甚至词组,它们是离散存在的,每一语法实体可做为一个单位参与不一样的组合,就如积木游戏里的木块同样。离散说法这对汉语这样的孤立语言,从心理到物理都是成立的,汉语里的组合也都是物理的、机械的,仅仅把语言单位先后排列在一块儿。对于英语这样有形态变化的语言,组合有了“化学”的性质,咱们还要变换各成份的形态并保持相互的一致。这样就涉及到词的同一性的问题。离散性并非一开始就明显的事实,说话时人的发音是连续的,文字分析中断句分词也一直是个难点。

相关文章
相关标签/搜索