转载-从信息论角度论证为何汉语是世界上最早进的语言--引用多项实验数据

时间 2019-11-19

标签转载信息论角度论证为何汉语世界上最早语言引用多项实验数据繁體版

原文原文链接

#【转载】从信息论角度论证为何汉语是世界上最早进的语言--引用多项实验数据html

做者：汉语计算机应用研究小组（笔名：冷酷的哲学？）ide

##1、语言水平高低的评判准则post

口语，其实是一种通信协议。就是说，语言其实是把人的思想经过发音器官变成一串频率不一样、波形不一样的声波，而后被另外一个体的听觉器官和相关的脑部组织从新转变回思想。通信协议，就是一个规则，一个规定了应该如何把思想/信息转变为易于传输的信号的规则性能

计算机上，通信协议有两个基本评判标准：【传输效率】和【抗噪能力】学习

传输效率：在单位时间里，按照该通信协议可以传输多少信息。抗噪能力：这种通信方式可以在多大的噪音下仍然保证绝大多数信息正确传输。测试

【传输效率】又分两个方面，编码效率和传输速度字体

编码效率：这个通信协议可以把一个信息用多短的一串信号来表达传输速度：一段信号，可以以多快的速度传输ui

评价一种语言的口语是否先进，就要分析上面这几个问题。编码

文字，则是一种数据存储方式，存储格式的要求与通信协议不一样，存储格式要求储存空间小、读写速度快，相比于读取速度，书写速度是次要的。这是由于平均下来一次书写对应不少次阅读，而人在阅读文字上花的时间通常远远大于书写。尤为是现代社会，手写愈来愈少，计算机输入、打印、印刷都大大加快了记录文字的速度，而阅读速度却没有多少提高，所以在现代社会，阅读速度就在定义文字水平上占据了更重要的地位。翻译

须要注意的是，下面的讨论中“音节”均采用西方语言学定义，粗略地讲就是一组连续元音与其先后的辅音共同构成一个音节。好比To、Bliss、Strength是单音节。汉语Ba、Chuang也是单音节，虽然单音节词的发音长度并不彻底相同，但至少是可比的

##2、语言的分类

世界上的语言大体分为两种，【孤立语】和【综合语】

（综合语其下又划分为黏着语、屈折语等子类型）

【孤立语】单纯经过词与词之间的关系来表达不一样的意思

【综合语】能够经过改变词的形态来表达不一样的意思

咱们举个简单的例子：

中文（孤立语）：我昨天告诉他了。

英文（综合语）：I told him yesterday.

英文你首先能够看到told和him两个变形，其中把tell变成told表示过去发生的动做。把he变成him表示客体

而中文用昨天来直接指明时间，若是不指明时间则须要用“已经”、“过”之类来表示过去，而并不改变词的形态，中文还经过各自的位置来体现谁是主体谁是客体

实际上，英语已是综合语中很是接近【孤立语】的了。英语的将来时态用的词形和通常时态没有区别，而不少其余语言中不一样的时态都是用不一样的词形来表达的。英文对于各个词的位置有明确的规定，而不少其余综合语，诸如拉丁语中，词的位置能够不固定。换句话说就是能够说出这样的句子：Him yesterday told I 而后经过词形里的主格词形和宾格词形来判断到底是谁告诉了谁

这是很是糟糕的，由于在读取的时候，老是有前后的差异，咱们但愿的读取顺序是：先读取咱们的大脑须要先处理的部分，【孤立语】自然就有这种优点，不少【综合语】在逐步的发展中也确立了相似的规则，好比拉丁语的后裔之一——法语

上古古汉语也曾是一种【综合语】可是因为汉字的限制，古汉语的词形变化仅存在于口头中，比方说文言文中的使动用法，如“文王以百里之壤而臣诸侯”中的臣（使臣服，在上古时期，是须要在汉字发音前加“s-”音来标识的，就是一个典型的综合语的词形变化

有人认为如今的汉语仍然带有必定的综合语色彩，他们认为加入诸如“了”、“的”这种助词实际上就是词的变形，这种见解就只能见仁见智了

从总体发展趋势来看，世界各地的口语都是从【综合语】向【孤立语】发展，虽然不能说【孤立语】就必定优于综合语，可是这个趋势说明【孤立语】的某种特性符合历史的发展，这个优点就是数据的压缩

##3、数据压缩：【孤立语】的高超之处

当计算机发展到了新的时代，人们开始研究如何在计算机上存储视频文件，一开始的方案极其简单，就是把一帧一帧图像所有都存储下来，可是这无疑是低效的，由于这里面的冗余信息太多

举个简单的例子，一个夜晚的场景，画面上不少地方都是黑的，何须把每个点的色彩反复记录呢？因此接下来的一个思路就是，再也不存储每一帧图像的完整信息，而存储下一帧图像与上一帧图像之间的差别之处，两幅图像中颜色同样的部分所有跳过

【孤立语】偏偏就具备这样的效果

举个简单的例子，一我的在用汉语谈论昨天发生的事情时，只须要一开始说起“下面这些事情都发生在昨天”，后面就不再必说起时态了，而英文，则须要反复使用时态来代表这事情发生在过去

在交流时你须要时刻考虑时间、主格/宾格、数量、主动/被动，这对交流是有影响的，固然，熟练使用这种语言以后会大大下降考虑这些的时间，可是即使熟练的综合语使用者仍是会在这方面犯错，在上下文的帮助下，这些变化均可以省掉

时间变形，能够依靠在第一句中加入时间状语完成描述，其后描述相同时间段的句子就不再用考虑描述时间了，这就是【孤立语】的数据压缩能力。

随着人类社会交流量的上升，一次交流的上下文就变得丰富起来，不少在单词、单句的条件下颇有效率的信息交流方式，也就显得愈来愈冗余了，所以世界上的各个主要语言纷纷向【孤立语】靠拢。

关于各个语言的表意效率，也就是信息密度，2011年法国里昂大学作了一个实验

http://ohll.ish-lyon.cnrs.fr/fulltext/pellegrino/Pellegrino_2011_Language.pdf

这个实验里，研究者找了59位不一样语言使用者，其中包括英语、法语、德语、日语、汉语、意大利语和西班牙语。为他们提供了20段文字，这些文字都翻译成各自的语言，而后请这些人分别用正常语速朗读，研究者全程录音，而后研究者计算全部音节数量，计算朗读中表现的义项（表意的基本单位）的数量，最后得出结论

研究的结果是

【汉语】信息密度为0.94，位居第一

【英语】信息密度为0.91，位居第二

德语（0.79）

法语（0.74）

意大利语（0.72）

西班牙语（0.63）

日语（0.49）

此处信息密度是经过计算每一个音节所包含的义项数量来得到的，因为义项的数量是从原始文本——英文版里统计的，翻译以后有可能会增长或减小义项，为防止翻译过程当中的扭曲形成数据标准不统一，各个语言的文本都被单独翻译为越南语，而后与各自越南语文本中每一个音节所包含的义项数量相除，最终获得比较公平的数据

这让我不禁地想到，通过大规模注水的现代汉语信息密度仍是这么高，那么文言文究竟已经高到了何种地步？很遗憾没有这方面的研究

不过，根据使用频率进行加权平均，现代汉语平均每一个词中的字数差很少是1.5左右，在文言文中，其中不少都是用单音节词表达的，折中一下，我猜测文言文的信息密度达到现代汉语的1.25倍应该是不成问题的，这在古代更是个恐怖的数字

由于拉丁语可不是比现代欧洲各主要语言简单，受到古代文字记录空间的限制，汉语的显然在文字记录方面更加占优，这也许就是我国古代文字记录很是丰富的缘由所在

有人说，音节不能做为衡量信息密度的单位，由于不一样的音节，发音长度很不同。这个问题提的很是好，事实上，我下一节就要讲到【英语】与【汉语】发音长度的问题，英语单音节平均发音长度比汉语长，所以在口语的信息密度方面，【汉语】的优点更大。

##4、传输的优点：声调

口语信息的传输，是经过声音完成的

声音通常分为四个部分：音质、音高、音长、音强

对于语言中的一个音节来讲，音质指的是其中辅音与元音的组合，其余三个都很好理解。现代语言不太规定【音强】，由于这实在没法在各我的之间获得统一，并且受到说话人的距离、情绪、身体状态等影响，此处需注意，英语中的“重读”其实是音高变化，而剩余的三个元素，则都在语言中获得了普遍的运用

拿汉语举例

【音质】很容易理解，就是发音除去声调

而声调自己则分为【音高】和【音长】两项

汉语普通话的四声，是四种不一样音高变化模式

一声是保持音高

二声是音高由低到高变化

三声是音高从高到低再到高

四声是音高由高到低

虽然咱们语文课里说轻声是没有声调，但实质上轻声是缩短音长，轻声通常是缩短音长的四声或一声（有时音高很低），不太轻声很短，比较难以听清，因此普通话中仅做为特定用途使用（语气助词、复数标志等）

英语的【重读】其实是音高的差别，因此严格地说，英语是有声调的，只不过英语的音调只有两个：高和低，可是英语中音调仅用于部分音节，除了表示疑问、强调等状况，一般英语单词不变调，除少许英语单词（如Record）外，英语单词不借助音调来区分不一样的词义，英语的确使用音长要素（如Sheep和Ship）因为英语通常只用音质和音长来区分词义，因此通常也认为是一种没有声调的语言。

首先从【编码效率】上，咱们能够说【汉语】是世界上编码效率最高的语言

汉语是世界上为数很少的使用音高来区分不一样单词的语言，所以从编码上说，汉语发音的表意能力就比通常语言高出一个维度，也就是说，使用单个音节，汉语可以表达的不一样信息的种类，理论上最高能够达到通常外语的4倍

为何外国人学汉语学得这么辛苦，而中国人学英语则没有那么辛苦？就是中国人是已经掌握了在发音是音高变化，如今再去学低级的两个固定音高。而在学习汉语中，不少外国人最吃力的问题之一就是声调。由于只习惯于两个固定的音高，而没有听到过、练习过在发音时连续变化音高。

有人提出，声调自己会影响发音速度，这固然是存在的，比方说二声，要求发音时音调逐渐上升。要表现出这个，发音时要表现出两个音调，天然是要比单一音调要费事，可是声调的好处在于，可以在同一组辅音和元音组合的基础上产生出多种不一样的发音，因此就没必要借助更多的辅音来区别两个具备相似发音的词（好比英文life和light）

英文音节中，辅音-元音组模式的音节，发音确实比汉语略快。可是其余模式，诸如辅音-辅音-元音组-辅音（Blight）或辅音-元音组-辅音，每每就比汉语发音慢了。而辅音-元音组模式的音节，因为英语缺少音调，因此数量远小于汉语。总体平均下来，英语单个音节的发音慢于汉语

对于“英语单个音节的发音应慢于汉语”这个结论，可能有的人以为不是很信服。咱们来举一个很是简单的例子，普通中国人的初等数学能力每每超过欧美。这并不简简单单是教育的问题，更关键地，这是中文对数字命名结果。

汉语全部数字均为单音节

其中6和9有两个元音（或按照国际学术便准，三个元音），发音稍慢

0有后鼻音，发音可能稍慢，还有几个带卷舌音，可能会稍慢

英语全部数字，除7之外，所有都是单音节

其中覆盖了“辅音-元音”结构（如4）

“辅音-辅音-元音”结构（如3）

“辅音-元音-辅音”结构（如5）

“辅音-元音-辅音-辅音”结构（如6）

"元音-辅音"结构（如8）

双元音结构（如0，注意通常数字里0读“ou”，不读zero，后者实在太费劲了）

能够说英语的这些数字大体包含了英语的各类单音节词的音节结构，固然这里尚未最神奇的辅-辅-元-辅-辅结构，可是那个和单元音结构同样比较少见。

那么平均下来英语的数字比汉语慢多少呢？

首先咱们须要知道，人对数字的短时间记忆，其实是对数字发音的记忆。换句话说，你能记住的数字位数，是由数字发音的总长度决定的

研究代表（详细请下载，自行阅读）

http://deepblue.lib.umich.edu/bitstream/handle/2027.42/26140/0000216.pdf?sequence=1

中国人从小开始短时间数字记忆能力就高过美国人，该文献说明，美国大学生的数字记忆长度平均为7.2位，中国大学生为9.2位。美国大学生的短时间数字记忆位数，是中国学生的78.26%。换句话说就是，英语数字的平均发音长度比汉语数字高27.78%，去掉英文数字7（双音节）对平均音长的影响（10%）那么平均下来，单音节英语发音长度大概比汉语高17.78%左右。

更进一步，中国的数字都是不折不扣的单音节，所以能够采用绝对逻辑的方式构建整个数字表。九十六，就是九个十加一个六。英语是“90”（与九和十都不一样的特殊词）再加一个6。法语是4个20加16

【汉语】是一种最简洁而最富逻辑的结构，在世界上是极为罕见的，九九乘法口诀表，就是构建在这个基础上的。其余国家的儿童若是想背下来这张表，能够说比中国儿童难了几倍，这种语言上的优点就提升了中国人的初等数学能力

顺便，还有人说，古汉语声调更多啊，难道汉语愈加展越回去了么？这固然是错误的，有些音调受说话者情绪等条件的影响，在辨识的时候不肯定性因素比较多。这个问题咱们将在抗噪能力一节中详细讲解

##5、信息论上的优点

从信息论角度来考虑，编码是颇有学问的。举个例子，咱们知道计算机传输信息，实际上传输的都是0和1。那么，若是咱们传输的各类信息出现的频率不同高怎么办？答案是，出现越频繁的，编码越短。这样就能提升整体效率

比方说，咱们只有四种信息要传递，按通常的想法，天然是把这四种信息分别用00、0一、十、11来表示。每一个信息都须要用两位二进制数来表示，也就是说传播100条信息须要发送200个二进制数。可是若是其中有一种信息出现的几率是91%，而另外三种分别是3% 那么就能够使用另外一种编码方式：1，01，001，000 平均下来这种传播方式传播100条信息须要发送91+23+33+3*3=115个二进制数。显然比前面那种效率要高。

世界各主要语言通过了几千年的进化，其词汇的长度分布，都比较符合信息论的要求，你会发现各个语言中越经常使用的词，通常就越短。英语里，我、你、他、她、咱们，都是单音节词

英文的单音节词很是丰富，实际上比中文的单音节发音要多。这是由于英文能够在一个辅音-元音组合的先后都添加辅音，来实现各类不一样的单音节发音，这样排列组合下来，英文的单音节词就是一个比较庞大的词库了，可是这就有一个代价，就是抗噪性能低，这个问题咱们放在下一节讲解。

按西方音节定义，英语的单音节词的使用比汉语要频繁，根据统计分析，汉语使用者平均词长约为1.5字上下（见《ReadingChineseScript: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese andEnglish Text》）

而成年英语使用者平均每词音节数约为1.4（见

http://www.waisman.wisc.edu/phonology/pubs/PUB30.pdf

这也获得了另外一个研究的支持：分析10小时的发听录音，平均没词音节长度为1.38）。

因此，就音节数而言，汉语词平均比英语词长7.14%，然而，考虑到英语一个音节比汉语单音节实际上长得多（即使把上一节获得的17.78%折半，也有8.89%）再加上汉语每音节信息含量大体比英语高3.30%（见第三节数据）从信息论的角度讲，汉语的信息传递效率基本上比英语高

这一点也获得了另外一个实验的验证

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3111932/

这篇论文找了8个汉语使用者和8个英语使用者，而后让他们两人一组。一组之中，一我的描述图片（描述者），另外一我的根据描述来绘制（绘画者）。最后对比图片的准确度，同时观察描述者的语言。

最后结果是，汉语描述者明显比英语描述者先开始描述，描述者开始描述与绘画者开始绘画之间的时间差，汉语使用者低于英语使用者，绘画时间，汉语绘画者低于英语使用者，总体时间，汉语组显著低于英语使用者，汉语组全部都比英语组快，并且越复杂的绘画，汉语组就快得越多。

绘画结果，144次绘画。汉语组平均每次犯8.1个错误

其中描述者平均每次犯3.7个错误，绘画者犯4.4个错误

英语组平均每次犯13.25个错误

其中描述者平均每次犯8.5个错误，绘画者犯4.75个

二者的差距仍然在统计偏差以内。因此并不算显著

（嗯，是谁说汉语没有英语精确来着？）

以后，为了考虑绘画者的技巧差别，让每一个绘画者直接对照原图绘画。结果【汉语】组反而慢于【英语】组。绘画期间，汉语组使用音节数显著少于英语使用者，两组语速（每秒音节数）接近（这个结论与前面的播音速度分析结果一致）。

这虽然是一个初步的实验，可是仍是能看出汉语在交流上的优点的：用词更少，时间更短，描述精确水平差很少（若是不是更高的话）这个实验还说明了……我国人民美术水平还有待提升……

至于欧洲主要其余语言，根据第三节提到的数据，它们发音频率比英语高，信息密度比英语低，要那些语言在这方面超过汉语，我以为可能性不大

##6、组词逻辑

因为英语单音节词资源比较丰富，但平均发音长度较长，因此你会注意到英语里单音节词比例高于汉语，而多音节词的使用比例就小于汉语，不少逻辑上很是相关的词因为不得不所有挤入有限的单音节词库，其发音就失去了联系。这就致使英语的经常使用词每每【缺少】组词的逻辑

好比咱们能够很轻松地说“公鸡”、“母鸡”、“小鸡”、“鸡蛋”

而英语里就成了“Cock”、“Hen”、“Chick”、“Egg”，毫无联系

若是经常使用词要创建联系，那么英语就必须提升这些单词的音节数，那么平均词长就要上升，从信息论角度讲，信息传递效率就更低了，因此【英语】只能在组词的逻辑性上进行妥协

相比之下，汉语就从容的多了，即使在当前这种信息效率下，汉语仍然能保证绝大多数词语构造具备逻辑性，所以相比于英语词汇，【汉语】词汇就比较容易记忆，这就产生了一个结果，那就是汉语的经常使用词汇量远远多于英语。

英文使用者的单词量和生词辨识能力可见1995年的如下论文：

http://jlr.sagepub.com/content/27/2/201.full.pdf

其中，大学平生均自称单词量为16141，通过多项选择测试发现，平均可以辨识其中71%的词汇，也就是说平均大学生词汇量估计为11460个单词。老年人平均自称单词量为21252，通过多项选择测试，发现平均能辨识其中80%，也就是说老年人的词汇量大体为17002，对于从未见过的词的正确理解几率，大学生为30%，老年人为39%

没找到中国的相关研究，不过这里是商务印书馆的《现代汉语经常使用词表（草案）》

http://wenku.baidu.com/view/51636fec551810a6f5248676.html

你们能够进去看看本身的词汇量，我感受大学生达到五万应该不成问题。并且这确定不是一我的的所有单词量，不过这里面有些词是英语里几个词合起来的，因此中国人词汇量未必比美国人高这么多，但我以为定性的结论仍是能够下的

另外里面可能有你没见过的词，能够看看有多少你猜不出正确含义……我以为除了极少数，确实没什么难度……

另外，汉语和英语都各自在组词上有一个弱点

汉语有大量的【同音词】例如“攻击”和“公鸡”

英语有大量的【多义词】英语的Ball既能够是球也能够是舞会

汉语中，曾经在文言文中大规模使用的单音节多义词如今大多变成了双音节单义词，汉语中真正的多义词（各个意思之间没有直观逻辑联系）是极少数。而英语里的同音词也是极少数，能够说这两种语言在各自的发展路径上都作了妥协

因为英语多义词比例比较大，因此尽管英语使用者词汇量比汉语使用者低，也不能说明英语的描述能力不如汉语，另外，美国大学生的词汇量远低于老年人，这说明他们并非已经记下了全部能见到的词汇，而是在那个年龄段，尚未足够的时间记下。所以能够看出，英语一词多义不少的缘由，极可能就是英语单词的记忆难度比汉语大。

总的来讲，因为汉语精简了发音，而且每音节信息密度较高，这使得汉语能够有较长的平均词长，所以组词逻辑相比于英语就有了必定的优点，至于其余主要语言，信息传递效率与汉语相比差距更大。主要方面都没法相比，这种次要方面就不须要再比了

各个国家名族只要是本身的母语就是最好的，不必来吹嘘汉语英语韩语日语什么的是最好最科学的，

##7、强劲的抗噪能力

前面讲到，英语依靠大量的单音节词才可以接近汉语的信息传递效率。但这不是没有代价的。构造大量的单音节词，就须要在词汇中使用大量的辅音

辅音分为两种

一种属于【响音】，就是可以持续发音的，诸如m、n、ng

（除这类辅音外，全部的元音也都是响音）

一类叫作【阻碍音】阻碍音自己发音短促、强度低、音高也很低

只有当阻碍音与元音结合，才能发出强度比较大的音。

汉语普通话中，全部阻碍音都是与元音结合的，而英语以及欧洲全部拼音语言，都大量使用了不与元音结合的阻碍音，事实上，古汉语中不与元音结合的阻碍音是极度常见的，音节结构比现代汉语的诸多方言都复杂，可是后来这种辅音用法就基本淘汰了

具体上古汉语的发音案例，你们能够自行搜索《關雎》上古漢語朗讀

虽然学界对上古汉语的具体发音还有不少争议

但古汉语音节的复杂度在那个朗读中体现得很好

楼主：顶贴专用马甲2013 时间：2013-08-13 01:43:11

消灭独立的阻碍音，首先加快了发音速度，第二保证全部音都具备很高的强度。可是其代价就是大大缩小了单音节词库，不过在上面的比较中咱们能够看出，这个代价是值得的，汉语的信息传递效率仍然很是高。

那么咱们继续一个前面提到的话题，是否是音调越多越好呢？

有一个搞笑论调是这么说的 "咱们的普通话叫“mandarin”，什么意思啊？满大人，满族人清朝入关以后，说不出咱们的口语，他就把不少调去掉了，把入声去掉了。说的发音愈来愈简单了，而后逼着全国人都这么说，因此咱们如今的口语比粤语要简单得多

这是一个很是愚昧的论调

首先，Mandarin 这个英语单词来自于葡萄牙语 mandarim 葡萄牙语这个词又来源于马来语m?nt?ri 马来语这个词来源于梵语mantrin 而梵语这个词的意思是官员

换句话说，mandarin的愿意是【官话】

并且Mandarin这个词能查找到的最先的记录出现于1589年

你们能够查查那时候“满大人”在哪里呢

不少人觉得粤语是正宗的汉语发音，这话对，也不对。粤语具有一些中古汉语的发音特征。可是它也是在【中古汉语】的基础上发展而成的，语音仍是有至关大的差别

有人认为北方官话/中原官话的造成，是由于蛮族入侵“污染”了汉语，这个说法一样，对，也不对。北方官话之因此在中古汉语的基础上进一步的发展，就是由于战争与征服。北方汉民与语言不通的外族加深的了交流，多种族的融合，教育，逐渐把一些发音变得更加容易

举一个例子，粤语里白菜的白是Baak6，普通话是Bai2 粤语里尾部的这个k是一个不发音的舌头动做，这个动做略微改变了原来Baa的发音，但这个音，若是不费力就很难形成Baa明显的变化。相比之下，Bai自己就容易发，双元音ai的发音是经过舌头跟随下颚动做完成的。咱们知道咀嚼肌的力量比舌头大，运动也快，依靠下颚完成的ai音显然比依靠舌头完成的aak音要容易发，固然这不是一个公平的比较。相比之下普通话Liu、Lang的发音难度与粤语Baak相近，可是这两个音的尾部都是响音，不须要费力就能发得很清楚

与这个不发音的k相似的，还有粤语中p和t结尾，这种发音方式正式名称叫作不除阻的【塞音尾】在亚洲不少国家和方言里都有，这应该是【古汉语】流传下来的特色，这种【塞音尾】既不抗噪也不省力，在交流更普遍、更频繁的北方方言里是很难见到的，应该是已经演化成其余发音了

粤语依具体方言不一样，有6-10个声调，其音高变化模式并不超出普通话的四个音调，之因此多出来这么多音调，是由于粤语还引入了不一样基准音高，比方说在一些方言里，粤语的第一、三、6声都是保持音高，可是这三个声调各自保持的音调高度不一样。再好比粤语第二、5声，都是音高由低到高变化，但起始音高不一样，粤语总共有四种不一样的基准音高，分别是do、re、mi和sol，相似的状况在不少南方方言里都存在。

这就是为何有时候南方方言听起来有些像唱歌，大概也就是为何吴侬软语听起来很好听。

然而粤语音调最大的问题就是，每个人音调高低是不同的。有的人说话音调高，有的人音调低，没有一个统一标准，甚至同一我的说话的时候，在低沉、平静、激动时，音调高低也是不一样的，所以，与一个不熟悉的人说话，出现单独的一个音高或两个音高，都很难分辨出究竟是哪一声，必需要三到四个基准音高都繁出现，才能判断准确对方的音高究竟属于哪一声。而这些基准音高是否会频繁出现，这就是比较看人品的了

固然，就汉语的冗余度而言，一部分音高判断不许是没有太大关系的

但这就让粤语发音多变的优点大大削弱了。

此外，粤语的七、八、9声都是短促音，其音高和音高变化模式与一、三、6声没有区别，短促音抗噪能力不如普通音长的发音，但它们的发音速度更快，不过在现今人类口语交流中，瓶颈是大脑的思惟速度，发音速度太快并无明显的好处

有人问到底多少个声调最合适，我以为这很很差说。如今没有客观的评估，可是不管如何有声调的汉语（及其方言）老是要比没有声调的外语强

那么汉语的抗噪性能有没有什么证实呢？

有的。出了国，尤为是到了欧美的人，就会发现一个问题。那就是中国人说英语，相比于当地人来讲，总有点含混不清。外语老师老是要求中国人说英语的时候嘴巴要张大、舌头的运动要有力，甚至要求用牙齿咬住一根铅笔来训练唇舌运动

这是为何呢？由于中国人已经习惯了唇舌微微运动的发音过程。

汉语发音具备很高的信号强度，并且因为舍弃了全部单独发音的辅音，因此一个音节里的元音就能保持更长的时间（这也就是为何咱们通常以为汉语说话比英语慢的缘故）咱们知道长时间保持一个信号，也有利于对抗随机噪声。发音强度大、元音维持时间长，这就致使，同等发音强度时，汉语的抗噪能力更增强大

换句话说就是，同等噪音条件下，汉语所须要的音量更小

所以汉语使用者发音没必要费力，唇舌运动幅度比英语之类明显小

##8、口语的速度

说到口语的速度，咱们先来看这篇论文：

http://ldc.upenn.edu/myl/llog/icslp06_final.pdf

图1显示，根据一些谈话样本，当去掉沉默与噪音占据的时间后

英语会话者每分钟通常可以说160-280个词

汉语会话者大体是250至400词（这里不是字）

这差很少是普通人不受思绪影响的最高语速

因此能够看出，汉语的理论最高信息传递能力是【远远高于】英语的。

但实际上受限于【思惟速度】，二者的速度差距并不大

下面这篇论文研究了在不一样语速下听众正确听得每一个字的几率

http://www.sciencedirect.com/science/article/pii/S0169814104001581

英文播音平均每分钟210-252个音节与汉语播音平均每分钟240-260字没有显著区别。能够说，人类接受语音的速度，如今是受到了【人脑处理能力】的限制。上面的播音速度，都不是播音员最快的说话速度，而是为了保证观众正常收听才控制的速度

随着交流的日益深刻，人类说话的速度实际上在加快，40年前美国通常语速是145词每分钟。现在是160-170词每分钟，中国60年代播音185字每分钟，现在是240-260字每分钟，这也许是信息的丰富让人脑的处理能力上升的缘故

[img] http://801.tianyaui.com/res/2013/1114/1384417603144.jpg[/img]

##9、汉字：伟大的基础

汉语一开始也是一种【综合语】大量使用词根、词缀。可是从文字角度，汉字为汉语成为【孤立语】提供了很是关键的基础结构，汉字致使词形变化没法记录在纸上。最后词形变化就只能用额外的汉字来标记了。而这个增长的汉字就变成了一个通用的逻辑规则，也就与修饰的特定词失去了必然关系，这样汉语就逐渐变成了【孤立语】

正是因为汉字将【读音】与【书写】割裂，使得汉语的语音可以相对自由地发展

所以，汉语语音在几千年中变化如此之大，而咱们的文化却没有割裂

更进一步地，因为汉字并不受限于读音，所以能够创造出大量同音异形字，帮助汉语下降平均音节长度、提升组词的逻辑性。虽然在口语上，汉语的同音异形词和英语的多义词都属于“同一发音可能包含不一样含义”的状况。但写到纸面上，同音异形词就比多义词更容易辨识，减小歧义的可能。

有人可能会问，汉语口语交流，并无多少歧义的问题，那为何文字中会须要额外的消除歧义的能力呢？这是由于通常状况下口语交流是一种双向交流。若是发现有可能有歧义，能够向对方询问，主动消除歧义

而文字每每是一种单向交流（不包括网上文字聊天……）一旦出现歧义，就很难消除，所以文字里的歧义通常须要比口语更小。咱们的文字、咱们的语音以及咱们整个语言总体，都是有机结合在一块儿的。推崇汉字的拼音化或拉丁语话，都是没有看清这种密切联系

反面教材就是韩国，盲目将文字拼音化的，结果出现把防水材料搞成吸水材料的笑话（韩语里“防水”和“放水”读音一致，结果建筑公司错误理解了图纸）

再有，因为汉字不须要空格，因此相比于相似字号的英文单词，同一个词要高而窄，这在排版上有很大的优点（行距要占用额外的空间，高而窄能够减小行数）加上汉语自己信息密度高，因此通常咱们看到的中文版的书面文件都比外文版的页数少

##10、阅读速度的比较

和语音同样，阅读速度一样受到大脑处理速度的制约，因此各个主要语言区别不大

《ReadingChineseScript: A Cognitive Analysis》这本书里有一个章节《Eye Movements in Reading Chinese andEnglish Text》专门讲阅读中英文时的眼球移动，这是中科院和悉尼大学的两位学者写的

熟练的中文阅读者可以每分钟阅读386个中文词汇

而熟练的英文阅读者能够每分钟阅读382个英文词汇

通常人可能会低100词左右

具体速度还取决于文章的复杂程度，文章简单的话阅读速度就更快。

汉语使用者眼睛每次凝视能够阅读1.71个词（2.57个汉字）每次凝视平均257毫秒

英文阅读者每次凝视能够阅读1.75个词，每次凝视平均265毫秒。

整体上说，二者阅读速度不相伯仲

##11、双线并行读取能力：更稳定

通过长期的研究，人们发现不一样语言使用者在阅读时使用的大脑区域是不一样的

如下这篇文章提供了部分综述

http://www.pitt.edu/~perfetti/PDF/Brain%20activ%20process%20Chinese%20char%20and%20words-%20Tan%20et%20al..pdf

阅读本身母语时，阅读【汉语】的人脑部激活范围比阅读【英语】的人大。英语阅读者在阅读时主要激活左脑的一些部分，而汉语阅读者则同时激活左右脑，这是一个颇有意思的发现

由于，时序信号（语音就是时序信号）的处理区域通常在左脑

图像、空间信息的处理区域通常在右脑

因此，不少人认为，汉语阅读者的阅读实际上有两个处理通道，就是说，在阅读汉语时，咱们老是一边经过图像来直接识别文字含义，一边经过图像转换为读音而后来识别文字含义，而表音语言只有一条显著的处理通道

##12、不够严谨？

有人说【汉语】的劣势就是不够严谨，这其实能够说是孤立语和综合语的差别。孤立语对于词的具体含义须要经过上下文肯定，若是上下文给予信息不足，就有可能出现歧义。而不少时候，上下文只能代表这个词更多是什么意思，而不能彻底否认其余理解，这虽然在交流中不会有什么问题，可是在那些防止别人钻空子的文件里就可能形成问题

咱们举个例子：“中国毫不会首先使用核武器。”

这句话有三种解释：

一、在敌方没有使用核武器以前，中国不会使用核武器

二、中国在使用常规武器以前不会使用核武器

三、中国不会是世界上第一个使用核武器的国家

很显然理解应该是1，可是并没有法否认2和3的可能性

所以，不少人认为【汉语】的这种不严谨性会妨碍法律条文和合同。

可是英文难道就很严谨么？

He ran into a girl with an umbrella

带伞的是男的仍是女的？

I saw a car with a big flag, whichlooked really evil

哪一个看起来很邪恶，车仍是旗子？

China will not be the first to use anuclear weapon.

这应该是上面的解释1仍是3？

想要作到严谨，都须要考虑到其余人阅读时的想法，而后用其余语句来消除歧义

顺便推荐搞笑英语书籍《Anguished English: AnAnthology of Accidental Assaults Upon OurLanguage》里面收录了不少爆笑的歧义句，好比 If you have not got any fresh vegetables, you may get canned

因此，汉语要想说的严谨，也是没有问题，只不过要比通常多一些口舌而已

分析语自己的表意效率就很高，多花一些笔墨，达到严谨的效果，也是彻底能够作到的

因此这方面若是有差距的话，差距也不大

汉语与拼音文字的起源对比

如今拼音文字大行其道，有的人认为这意味着拼音文字是更先进的文字，因此拼音文字打败了表意/意音文字，事实上，单从二者的发展历史，是得不到这个结论的。

文字，从一开始就是记录信息用的，全部文明的最原始的文字，若是是天然生成的话，都是【象形文字】这个缘由并不难理解，一开始你们可能只要记录今天是什么日子、我有几头牛之类，显然是画个东西上去最简单。中国、两河流域、古埃及、古印度、玛雅，一开始使用的都是象形文字。

从象形文字出发，一个文明能够发展出不少种不一样的字形，可是随着须要表达的意思迅速增长，就须要不断添加新的字形，这时比较简单的办法就是让一个字型一部分表音一部分表意，中国汉字在扩展时主要采用【形声字】策略，用形旁和声旁组合成一个汉字

而埃及的【圣书体】也与此相似，圣书体的一个单词包含两个部分，一部分用象形符号表音，一部分用象形符号表意。

欧洲如今主要语言都起源于【拉丁文】，拉丁文又起源于希腊语。希腊人的字母表是腓内基人教的，而腓内基人的字母又是从埃及人那里来的，与此同时，还发现了一种多是拼音文字的“前西奈字母”文字，这种文字与腓内基文字相似，也与圣书体有类似之处。有学者认为，【腓内基文字】就起源于“前西奈字母”而“前西奈字母”则是【圣书文】的一种拼音简化体，这相似于拼音文和汉字的区别

因此说白了，从腓内基开始，一直到如今欧洲诸国

其拼音文字的起源，大概都由埃及的【圣书体】中的表音部分演化而来。

须要注意的是，因为口语先于文字出现，当一个民族尚未本身文字的时候，接触到外来文明，就容易用外来文明的【字符体系】来构建本身的文字，对于这些民族而言，最简单的就是用先进文明的字母体系来直接表达本身语言的发音。所以，自腓内基然后的欧洲的次生文明天然纷纷使用字母来记录本身的语言。

再好比，日本尽管很早就引进了【汉字】可是汉字与其原有的语言（当时尚未文字）并不兼容，而汉语里根本就没有简单的拼音符号，可是日本为了可以真实记录本身的语言，最终衍生出了平假名、片假名为汉字注音，后来这些就变成了日语的基本符号

［铁证如山：日文是山寨了唐代曲谱，让谁羞愧?

http://bbs.tianya.cn/post-worldlook-683879-1.shtml

从这里就能够看出，当【次生文明】在没有发展出本身的象形文字体系就被原生文明文化入侵时，不管他们先接触到的是什么样的原生文明语言，最终都会走上使用【拼音文字】的道路。这样的拼音文字也很适合直接囫囵吞枣地引进外语的词汇，方便向先进文明学习

这种特色一直流传到今天

顺便，看到有人说希腊是次生文明的这个说法，不得不解释一句，希腊是埃及和两河流域的次生文明，同时受到了两大原生文明的哺育。这也就是为何各国论述古文明的书籍中。希腊文明总比古埃及、两河、中国等【原生文明】低一个等级，曾经看到有人用希腊来否认中国在古文明中的地位，这是很好笑的。

那么为何这世界上的表意文字这么少呢？很显然，这世界上的【原生文明】原本就那么几个，而【次生文明】却要多几个数量级。历史大潮中三十年河东三十年河西，原生文明也有可能被次生文明所征服，在征服以后，语言也就有可能会逐渐消亡了。

因此，拼音文字普遍使用，这并不说明拼音文字就优秀

只能说这世界上的原生文明实在太少