侃一侃编译原理的“文法”

时间 2019-11-09

标签编译原理文法繁體版

原文原文链接

若是你敲累了代码，想喝喝咖啡，顺便看点儿能够当佐料的文章那本文应该比较适合如今的你。(•̀ᴗ•́)و ̑̑算法

咱们一每天都在和代码打交道，可是你了解代码的运行原理么？为何你的一行代码就能被执行出五花八门的效果嘞？编程

其实代码这玩意儿就是一门语言。是的，你能够当作和中文、英文等语言平等的存在。是语言就得有语言的解析规则，不懂得规则天然没法理解语言的意思。就跟看没字幕的美剧同样，真是痛苦。╮(╯﹏╰)╭编程语言

中文有中文的语义、语法、句子、句法、文法，那么编程语言也有本身的语言系统。spa

咱们知道，咱们写的代码被编译器或者解释器所执行，那它们是按照什么文法来理解你的代码呢？这就是文法。3d

本文也不会深刻去解析文法，否则能够直接转语言学了（笑~）。本文只是简单介绍文法的一些概念。若是您喝着咖啡，看完以后，能有些许收获，微微一笑，那本文的目的也就达到了。^_^blog

工欲善其事必先利其器。在谈文法以前，咱们先介绍几个概念。递归

一.文法涉及的几个简单概念编译器

假设Σ是一个有限的字母表集合，它的每一元素都是一个符号。Σ上的一个符号串就是指由Σ中的符号组成的一个有限序列。若是一个符号串不包含任何符号，就叫它空串，记为ε。如今再定义一个集合U和V的链接积的概念：编译

　　　　　　　　UV = {αβ | α∈U,β∈V}变量

好比A = {a,b}，B = {1,2}，则AB={a1,a2,b1,b2}。很简单的概念，是否是？

那么相信你也能知道V^1，V²等的幂的概念了。

还有几个：

ok，定义结束，如今来谈谈我们本次的主角——文法。一个比较拗口的定义，

文法是描述语言的语法结构的形式规则（即语法规则）。

这啥意思啊？可能你一脸黑人问号……

其实，就是指怎么由一堆符号组成一个有含义的句子的规则和协议。

所谓的上下文无关文法就是文法的一种，它所定义的语法单位是彻底上下文无关的。好比咱们在程序语言中，碰到一个算数表达式时，咱们彻底能够对它“就事论事”，不用去考虑它上下有啥东西。固然，在天然语言（中文、英文等）中，一个语法单位（字、词、句子）确定和上下文环境有关，否则当年咱们中文考试的阅读理解题也就不会出现“根据上下文，解释xx句子的含意”了。(ˇˍˇ) 想～

因此说，上下文无关文法不能用来描述天然语言，可是对于当今的程序语言来讲，上下文无关文法基本够用了。下文中的“文法”，若是没有特殊说明，都是之指“上下文无关文法”。

下面类比天然语言的具体例子，谈谈咱们今天要说的文法。

一个英文句子：

He gave me a book.

这个句子知足英语的语法规则，是一个语法正确的句子。若是咱们用“→”表示“由...组成”或者“定义为”，按照咱们中学的语法，能够分解一下这个句子：

这样，经过这样的一个个规则（又叫“产生式”），就把一个句子分解到了单词的层次。或者这么说，有了这些规则，咱们能够这么干：

咱们能够画一个更形象的图（语法分析树）来讲明这种推导。

上面定义英文句子的规则就能够说是一个上下文无关文法。其中，<句子>被称为开始符号，<主语><谓语><代词>之类的被称为非终结符号，He、gave之类的被称为终结符号。

概括起来，一个上下文无关文法G包括四个部分：终结符号，非终结符号，开始符号，产生式。

终结符号就是一门语言中最基本的符号。在程序语言中，基本字、标识符、常数、运算符号等都算终结符号。

非终结符号更像一个抽象的集合，好比“算数表达式”、“赋值句”均可以看作非终结符号。

产生式就是推导规则。

下面上精肯定义：

二.递归定义的例子

有时候，只用一个产生式是不足以定义一个语法单位的，须要几个产生式的相互配合。有时候会须要递归的形式。举个栗子：

假设要定义一类含有+、*的算术表达式，这个定义能够这么说：

变量是一个算术表达式；
若是E1和E2是算术表达式，那么E1+E二、E1*E二、（E1）也是算术表达式。

咱们用产生式的形式描述它：

E→i
E→E+E
E→E*E
E→(E)

其中 E 表明算术表达式， i 表明变量。这四个产生式的全体才定义了什么是“算术表达式”。后三个都是递归的形式。

还能够简化为：E→i | E+E | E*E | (E)。其中的“|”表明“或”，是一种元语言符号。

三.文法与语言的推导

假设G是一个文法，S是开始符号，若是S通过零步或者若干步推出α，那么称α是一个句型。只包含终结符号的句型是一个句子。文法G产生的全部句子构成一门语言，记为L（G）。

那么怎么从文法推导出它表明的语言嘞？

为了方便，咱们引入一些符号。

方法：把产生式当作替换规则，把当前符号串中的非终结符号用其产生式右边的符号来替换。

再看有文法G2->语言L（G2）例子。

推导过程以下：

语言L（G2）-> G2 的例子。

由上面的两个例子咱们能够知道，一个文法能够惟一肯定一个语言，可是一个语言不必定惟一对应一个文法。

四.语法分析树与二义性

咱们发现从一个句型到另外一个句型的推导过程不是惟一的。例如从E+E->i+i，存在两个推导过程：

E+E->E+i->i+i 最右推导，每一个推导过程都是从最右边的非终结符号的替换开始
E+E->i+E->i+i 最左推导，每一个推导过程都是从最左边的非终结符号的替换开始

固然为了对句子的结构进行一个肯定性的分析，咱们通常只考虑最左推导或者最右推导。

前面咱们提到过用一种树形的图示来表示这个句型的推导过程，这棵树就被称为”语法分析树“，简称”语法树“。

好比从E->(i+i) 的过程：

对于一个文法，若是它的某些句子对应两棵不一样的语法树，这个文法就属于“二义性文法”。

注意，文法的二义性和咱们一般所说的语言的二义性不一样，咱们可能有两个不一样的文法G1，G2，一个是二义性，一个是非二义性，可是可能L（G1） = L（G2）。对于程序语言来讲，咱们经常但愿它的文法是非二义性的，可是，只要咱们可以控制和驾驭文法的二义性，文法二义性的存在也不必定是坏事。

如今已经证实了，文法二义性是不可断定的。也就是说不存在一个算法，在有限步骤内算出一个文法是否是二义性的。咱们能作的事儿，就是找一组充分条件来讲明非二义性。好比，规定运算符号的优先级和结合性。

对于咱们上面使用的那个文法：E->E+E | (E) | E*E | i

若是限定*的优先级高于+，而且都是左结合的，那么上述文法就变成了非二义性文法。读者大大能够试试推导E->(i*i+i)。