抽象语法树简介

()简介css

抽象语法树(abstract syntax codeAST)是源代码的抽象语法结构的树状表示,树上的每一个节点都表示源代码中的一种结构,这因此说是抽象的,是由于抽象语法树并不会表示出真实语法出现的每个细节,好比说,嵌套括号被隐含在树的结构中,并无以节点的形式呈现。抽象语法树并不依赖于源语言的语法,也就是说语法分析阶段所采用的上下文无文文法,由于在写文法时,常常会对文法进行等价的转换(消除左递归,回溯,二义性等),这样会给文法分析引入一些多余的成分,对后续阶段形成不利影响,甚至会使合个阶段变得混乱。因些,不少编译器常常要独立地构造语法分析树,为前端,后端创建一个清晰的接口。html

抽象语法树在不少领域有普遍的应用,好比浏览器,智能编辑器,编译器。前端

 

()抽象语法树实例java

 

(1)四则运算表达式后端

表达式: 1+3*(4-1)+2浏览器

抽象语法树为:编辑器

 

(2)xmlui

代码2.1spa

 

  1. <letter>
  2.   <address>
  3.     <city>ShiChuang</city>
  4.   </address>
  5.   <people>
  6.     <id>12478</id>
  7.     <name>Nosic</name>
  8.   </people>
  9. </letter>

 

抽象语法树.net

 

 

 

 

(3)程序1

代码2.2

 

  1. while b != 0
  2. {
  3.     if a > b
  4.         a = a-b
  5.     else
  6.         b = b-a
  7. }
  8. return a

 

抽象语法树

 

(4)程序2

代码2.3

 

  1. sum=0
  2. for i in range(0,100)
  3.     sum=sum+i
  4. end

 

抽象语法树

 

()为何须要抽象语法树

当在源程序语法分析工做时,是在相应程序设计语言的语法规则指导下进行的。语法规则描述了该语言的各类语法成分的组成结构,一般能够用所谓的先后文无关文法或与之等价的Backus-Naur范式(BNF)将一个程序设计语言的语法规则确切的描述出来。先后文无关文法有分为这么几类:LL(1)LR(0)LR(1), LR(k) ,LALR(1)等。每一种文法都有不一样的要求,如LL(1)要求文法无二义性和不存在左递归。当把一个文法改成LL(1)文法时,须要引入一些隔外的文法符号与产生式。

例如,四则运算表达式的文法为:

文法1.1

 

  1. E->T|EAT
  2. T->F|TMF
  3. F->(E)|i
  4. A->+|-
  5. M->*|/

 

改成LL(1)后为:

文法1.2

 

  1. E->TE'
  2. E'->ATE'|e_symbol
  3. T->FT'
  4. T'->MFT'|e_symbol
  5. F->(E)|i
  6. A->+|-
  7. M->*|/

例如,当在开发语言时,可能在开始的时候,选择LL(1)文法来描述语言的语法规则,编译器前端生成LL(1)语法树,编译器后端对LL(1)语法树进行处理,生成字节码或者是汇编代码。可是随着工程的开发,在语言中加入了更多的特性,用LL(1)文法描述时,感受限制很大,而且编写文法时很吃力,因此这个时候决定采用LR(1)文法来描述语言的语法规则,把编译器前端改生成LR(1)语法树,但在这个时候,你会发现很糟糕,由于之前编译器后端是对LL(1)语树进行处理,不得不一样时也修改后端的代码。

抽象语法树的第一个特色为:不依赖于具体的文法。不管是LL(1)文法,仍是LR(1),或者仍是其它的方法,都要求在语法分析时候,构造出相同的语法树,这样能够给编译器后端提供了清晰,统一的接口。即便是前端采用了不一样的文法,都只须要改变前端代码,而不用连累到后端。即减小了工做量,也提升的编译器的可维护性。

抽象语法树的第二个特色为:不依赖于语言的细节。在编译器家族中,大名鼎鼎的gcc算得上是一个老大哥了,它能够编译多种语言,例如cc++,javaADAObject C, FORTRAN, PASCALCOBOL等等。在前端gcc对不一样的语言进行词法,语法分析和语义分析后,产生抽象语法树造成中间代码做为输出,供后端处理。要作到这一点,就必须在构造语法树时,不依赖于语言的细节,例如在不一样的语言中,相似于ifconditionthen这样的语句有不一样的表示方法

c中为:

 

  1. if(condition)
  2. {
  3.     do_something();
  4. }

 

     在fortran中为:

 

  1. If condition then
  2.     do_somthing()
  3. end if

 

在构造ifconditionthen语句的抽象语法树时,只须要用两个分支节点来表于,一个为condition,一个为if_body。以下图:

在源程序中出现的括号,或者是关键字,都会被丢掉。

 

参考:https://www.jianshu.com/p/6a2f4ae4e099

转自:http://blog.chinaunix.net/uid-26750235-id-3139100.html

相关文章
相关标签/搜索