前面两篇(一、二)只是直观地针对已明确给出的教学语言 Tiny 源程序进行直接的词法分析(其实根本就称不上),不具备通常性(下面这个针对C++源程序的词法分析也至关单一,考虑面不足)。下面是咱们的课程实验,须要结合课堂上学到的利用有限自动机DFA的方法来设计并分析源程序,提取出符合要求的Token。ios
根据老师给出的课件以及教材上的内容,扫描程序(词法分析)有下面3种实现方式,前面两篇(一、二)就是属于“直接编写”这一类,而本文则是“DFA”这一类。ide
一、按实验要求(以下),目前只拙劣地实现了第(1)和(5)点。函数
并且第(1)点中有两个要求未能完成:测试
★ 浮点数,由于包含单行、多行注释的DFA已经很混乱了,这部分暂时先不实现,考虑未来用“表驱动法”(即状态转换表)来实现。spa
★ 注释,与教材相似不打印单行和多行注释,所以代码实现中少了处理注释的内容。设计
实验中用到的C++源程序与要求以下图:3d
二、对实验要求中的“样例程序”稍微修改了一下。代码规范
★ 头文件 #include<iostream.h> 被改成 #include "iostream.h",即 iostream.h 是由双引号 "" 而不是尖括号 < > 包围的,实际上回到了 C 的代码规范。这样修改是由于本来肯定 DFA 时考虑不全面,忽略了“小于等于 <=,大于等于 >=,判断 ==,不等于 != ”这几种特殊状况,由于他们会跟 < > = ! 这几个特殊字符形成二义性。blog
★ 同时,C++ 中的 IO 有“ >> 与 << ”也可能与上述特殊字符形成歧义,这个使得实现代码中的 unGetNextChar(int step) 与教材中的有所不一样,由于该函数带了一个“步长参数 step”,其实也是为了迁就 #include<iostream.h> 中的 > 与代码中的 >> 和 >= 。字符串
其实,"iostream.h"也被做为字符串识别了,目前尚改进不了。
★ 另外为了测试算术运算符,对实验要求中的样例程序进行了修改,程序按照该样例做为输入,以下图加上了一个“i = i + 2;”语句:
三、程序中的打印输出模仿了教材中的样例输出。
★ 对于以上样例输入,最终程序输出结果以下:
四、针对该C++源程序设计的DFA 图大体以下:
五、实现代码(Java)
近来喜欢上了Vim的代码高亮,看着清晰明朗,下面是整个实现代码在Vim下的截图,文本代码在本文最后: