Antlr3 学习

时间 2019-12-07

标签 antlr3 antlr 学习繁體版

原文原文链接

探索Antlr（Antlr 3.0更新版） java

简介
Antlr（ANother Tool for Language Recognition）是一个工具，它为咱们构造本身的识别器（recognizers）、编译器（compiler）和转换器（translators）提供了一个基础。经过定义本身的语言规则，Antlr能够为咱们生成相应的语言解析器，这样即可以省却了本身全手工打造的劳苦。

目标
如同程序设计语言入门大多采用“Hello World”同样，编译领域的入门每每选择计算器。而这里迈出的第一步更为简单：一个只能计算两个数相加的计算器，也就是说，它能够计算“1+1”。

基础知识
先来考虑一下如何下手，若是你曾经接受过编译原理的教育，权当忆苦思甜了。这个计算器工做的前提是有一个须要计算的东西，无论咱们是以文件的形式提供，仍是手工输入，至少咱们可让咱们的计算器知道“1+1”的存在。

有了输入以后，咱们要先检查输入的正确性，只有对正确的输入进行计算才是有意义的。如同写文章有形式和内容之分，这里的检查也要细分一下，率先完成的检查固然是面子功夫——形式上的东西，看看是否有错别字的存在，咱们要作的是数值相加，结果人家给出了一个字母，这确定不是咱们但愿获得的，因此咱们有权力拒绝这个不合法的东西。对于程序员来讲，若是在本身的程序里写了一个语言不接受的标识符，好比在Java里用“123r”作标识符，那编译器确定会罢工，拒绝让程序经过编译的。在编译原理里面，这个过程叫作词法分析。在咱们的计算器中，咱们只接受整数和加号，其它的一律不理。这里咱们说的是“整数”，而非 “1”、“2”……，对咱们来讲，它们表明着同一类的东西，编译原理教导咱们把这这种东西叫作token，那些数字对咱们来讲，都是同样的token，不一样的仅仅是它们的值而已。

形式说得过去并不表明内容就能够接受，南北朝时期许多骈体文让咱们看到了隐藏在华丽的外表下的空虚灵魂。你能够说 “我吃饭”，若是说“饭吃我”，除非是在练习反正话的场合，不然没有人会认为它是有意义的，由于显然这不是咱们习惯的主谓宾结构。只有在闯过了词法分析的关口，才能到达这里，在编译原理里面，咱们把这个阶段叫作语法分析。若是说词法分析阶段的输入是字符流的话，那么语法分析阶段的输入就是token流——词法分析的输出。咱们这里接受的合法语法是“整数加号整数”。

编写语法文件
好了，制订好本身的语言规则以后，咱们须要以Antlr的语言把它描述出来。下面即是以Antlr的语言描述的语法：
grammar Calculator;

expr:   INT PLUS INT;

PLUS : '+' ;
INT   : ('0'..'9')+ ;

Antlr的语法文件一般会保存在一个“.g”的文件中，咱们的语法文件叫作“Caculator.g”。

咱们来看看这里的定义：
expr:   INT PLUS INT;

这条语句定义了expr，它等价于“:”右边的部分，也就是说，
* 一个INT，后面跟着一个PLUS，后面再接着一个INT。

至于INT和PLUS，它来自后面的定义：
PLUS : '+' ;
INT   : ('0'..'9')+ ;

* PLUS定义的token，就是一个单一的“+”
* INT定义的token，由从'0'到'9'之间任意的数字组成，后面的加号表示它是能够重复一次到屡次

若是你曾经与Antlr 2.x有过一面之缘，你会发现，这个语法文件与Antlr 2.x的语法文件有着些许不一样。首先，咱们没有区分词法分析和语法分析，由上面的代码能够看出，两者在形式上是一致的，不一样的是，对于词法分析的输入是字符，而语法分析的输入是词法分析的结果，也就是token。Antlr 2.x必须显式的区分这两者，而在Antlr 3.0以后，Antlr会替你料理这一切。再有，这里的语法文件名必须与grammar定义的名字保持一致，对于Java程序员，这是一个顺其天然的选择。

编译语法文件
如同不编译的程序是没法发挥其威力同样，单单语法文件对咱们来讲，并无很大的价值。咱们的工做就是使用Antlr提供工具对咱们的语法文件进行编译，不一样于平常的编译器输出可执行文件，这里的输出是程序语言的源文件。Antlr缺省目标语言是Java语言，它也能够支持C，C#和Python语言，其余的语言尚在开发之中，从3.0发布包结构来看，Ruby的支持很快就会加进来。

将Antlr提供的JAR文件加入到classpath中，其中包括Antlr 2.7.7，Antlr 3.0与其runtime，stringtemplate。你没看错，除了3.0，这里还包含着2.7.7。缘由很简单，Antlr 3.0是基于以前版本开发的。

而后把语法文件的名称做为参数传给语法编译器：
java org.antlr.Tool Caculator.g

在确保命令正确执行，且语法文件编写正确的状况下，Antlr为咱们生成了几个文件：
* CalculatorLexer.java
* CalculatorParser.java
* Calculator__.g
* Calculator.tokens

正如前面说过的，Antlr替咱们料理好了词法分析和语法分析，其中， CalculatorLexer.java就是咱们的词法分析器，而CalculatorParser.java中包含了语法分析器，它们是咱们这里关注的主要对象。至于另外两个文件，Calculator__.g是一个自动生成的lexer语法文件，而Calculator.tokens则是列出了咱们定义的token，咱们并不会在程序中和它们直接打交道，因此，让咱们暂时忽略它们的存在。

运行程序
生成代码以后，就是如何使用这些生成的代码。下面就是咱们的主程序，它负责将词法分析部分（Lexer）和语法分析部分（Parser）驱动起来：
public class Main {
    public static void main(String[] args) throws Exception {
        ANTLRInputStream input = new ANTLRInputStream(System.in);
        CalculatorLexer lexer = new CalculatorLexer(input);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        CalculatorParser parser = new CalculatorParser(tokens);

        try {
            parser.expr();
        } catch (RecognitionException e) {
            System.err.println(e);
        }
    }
}
从这段代码中能够清晰的看出，Lexer的输入是一个字符流，而Parser则须要Lexer的协助来完成工做，用Lexer构造出的Token流做为其输入。一切就绪，咱们让它跑起来，尝试输入一些内容，看它是否可以经过验证。事实证实，咱们的程序能够轻松识别“1+1”，而对于不合法的东西，它会产生一些抱怨。

计算结果
还记得咱们的目标吗？咱们的目标是计算出“1+1”的结果，而如今这个程序刚刚可以识别出“1+1”，咱们还要继续前进。

熟悉XML解析的朋友对于SAX和DOM必定不陌生，两者之间差异在于SAX属于边解析边处理，而DOM则是把全部的内容解析所有解析完（在内存中造成一棵树）以后，再统一处理。Antlr也有与之相似的两种处理方式，SAX的朋友是在Parser中加入处理动做（Action）处理将随着解析的过程进行，而DOM的伙伴则是解析造成一棵抽象语法树（Abstract Syntax Tree，简称AST），再对树进行处理。

加入Action
先来看看SAX的朋友。由于处理动做是加在expr上，其它部分保持不变。下面是修改过的expr：
expr returns [int value=0]
        : a = INT PLUS b = INT
          {
              int aValue = Integer.parseInt($a.text);
              int bValue = Integer.parseInt($b.text);
              value = aValue + bValue;
          }
        ;

看到经常使用的字符串转整数的方法，熟悉Java的朋友想必已经露出了会心的微笑。没错，这里定义Action的方法采用就是Java语言，由于咱们生成的目标是Java，若是你期待另辟蹊径，那这里的代码就要用你的目标语言来编写。

仔细看一下不难发现，action彻底是在原有的规则基础上改造的来。首先用returns定义了这个Action的返回值，它将返回value这个变量的值，其类型是int，咱们还顺便定义这个变量的初始值——“0”。接下来，咱们用a、b拿住了两个token的值，咱们前面说过，在检查的过程当中，咱们并不关心每一个token具体的内容，只要token的类型知足须要便可，但在action中，咱们要计算结果，那必须使用token具体的内容，因此，咱们用变量拿住了token。这里咱们用$a.text获取这个token的具体值。剩下的动做就很简单了，把文本转换为数字，进行加法运算。

再给旧版本一些忆苦思甜的时间，Antlr 2.x写法有一些细微差异。首先，Antlr 2.x用“a : INT”将一个Token赋给一个变量，而这里用的是“a = INT”。再有，咱们用$a.text获取token的值，而在Antlr 2.x中，咱们会用a.getText()，固然，在Antlr 3.0中，咱们也能够这么写，不过，a.getText()这种写法显然太过于Java。

是否是对咱们的计算器有些火烧眉毛了，那就挥动工具生成全新的Parser。不过，在新的体验以前，咱们还要稍微修改一下主程序，以体现咱们的劳动成果。
public class Main {
    public static void main(String[] args) throws Exception {
        ANTLRInputStream input = new ANTLRInputStream(System.in);
        CalculatorLexer lexer = new CalculatorLexer(input);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        CalculatorParser parser = new CalculatorParser(tokens);

        try {
            System.out.println(parser.expr());
        } catch (RecognitionException e) {
            System.err.println(e);
        }
    }
}

好了，让这个计算器来为咱们求证“1+1”吧！

AST
SAX的朋友表演完了，下面就是DOM的伙伴登场了。

创建AST的方式很简单，只要咱们加上一个AST的选项便可，不过，同DOM的处理方式同样，前面的解析只是为了后面的处理作准备，因此，这里咱们要修改一下以前编写的语法文件，下面就是咱们的新语法文件：
grammar Calculator;

options {
    output=AST;
    ASTLabelType=CommonTree;
}

expr : INT PLUS^ INT;

PLUS : '+' ;
INT   : ('0'..'9')+ ;

稍微有些不一样的地方是，咱们加上了两个选项，告诉Antlr，咱们要输出的是一个普通的AST。再有，在PLUS上面的“^”，这个符号用来告诉Antlr建立一个节点，以此做为当前树的根节点。

你也许会有些疑问，怎么没看到计算的加法的地方？正如前面所说，这里只描述了语法结构，这是为了后面的处理在作准备，那么后面如何处理呢？别急，大戏要压轴。下面登场的是Antlr整个故事最后一个大角，TreeParser：
tree grammar CalculatorTreeParser;

options {
tokenVocab=Calculator;
ASTLabelType=CommonTree;
}

expr returns [int value]
    : ^(PLUS a=INT b=INT)
      {
          int aValue = Integer.parseInt($a.text);
          int bValue = Integer.parseInt($b.text);
          value = aValue + bValue;
      }
    ;

Antlr 能够接受三种类型语法规范——Lexer、Parser和Tree-Parser。若是说Lexer处理的是字符流、Parser处理的是Token流，那么TreeParser处理的则是AST。前面Action的处理方式中，咱们看到，规则同处理放到了一块儿，显得有些混乱，而采用了AST的处理方式，规则同处理就彻底分离了：在Parser中定义规则，在TreeParser中定义处理，若是咱们须要对一样的语法进行另外的处理，咱们只要从新 TreeParser，而没必要在规则与Action混合的世界中苦苦挣扎。

有了前面Action的基础，再来看TreeParser也就简单许多，须要说明的就是：
^(PLUS a=INT b=INT)
除去变量的说明，简化一下这段代码
^(PLUS INT INT)
第一个符号PLUS对应了表示着根节点，两个INT则分别表明了两棵子树，这样恰好与前面生成的语法树对应上。

再来看看从新打造的主程序：
public class Main {
    public static void main(String[] args) throws Exception {
        ANTLRInputStream input = new ANTLRInputStream(System.in);
        CalculatorLexer lexer = new CalculatorLexer(input);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        CalculatorParser parser = new CalculatorParser(tokens);

        try {
            CommonTree t = (CommonTree)parser.expr().getTree();
            CommonTreeNodeStream nodes = new CommonTreeNodeStream(t);
            CalculatorTreeParser walker = new CalculatorTreeParser(nodes);
            System.out.println(walker.expr());
        } catch (RecognitionException e) {
            System.err.println(e);
        }
    }
}

结语
体验过最简单的Antlr程序，咱们就有了让它更为丰富的基础，接下来即是本身动手的时间了。

参考资料
《ANTLR入门》 2004年第三期《程序员》
《ANTLR Reference Manual》
《The Definitive ANTLR Reference》node

说明：程序员

用antlr的eclipse插件,每次修改parser文件,都会自动生成java代码,但生成的java代码没有package信息,增长以下代码便可:
eclipse

@header {
package mypack;
}

@lexer::header {
package mypack;
}