学习 bison 原理(三) 算法
工做老是不少, 还要学习不少, 因此时间老是不够的. 本想好好总结多写
点的, 但是懒?仍是想作别的?, 所以这里只能简单描述下了. 数组
在(二)中已经作了很多准备性工做了, 这一步 4. 计算 LR0 状态集,
结果多是一个非肯定的(有冲突的)有限状态机. 在 编译原理 一书
对 LR0 有较详细的说明, bison 中计算 LR0 的方法也和书上是一致的. 数据结构
LR0 计算状态的主入口函数为 LR0.generate_states(), 下面是主要步骤:
1. 初始化分配计算所需空间, 初始化闭包(Closure)计算所需数据
2. 创建初始状态(state), 遍历每一个状态, 计算对每一个符号的 GOTO
函数, 将计算出的新状态加入到链表中
3. 重复第2步, 直到扫描完成整个链表, 表示没有新的状态产生了.
过程当中建立出每一个状态 shift, reduce 数据.
4. 设置初态和终态, 将状态机补全为增广自动机. 闭包
这里关键在 generate_states() 里面的 while 大循环, 其遍历全部状态,
从 GOTO 计算出(可能的)新状态. 在编译原理龙书 P.157页 图4-33 有
给出规范 LR(0)项集族的计算, 基本和这里的算法一致. 咱们仅描述下
程序中所使用的数据结构. 函数
在 LR0 中的 LR0.core 类用于描述一个状态(state), 其主要属性为:
number -- 编号, 每一个状态给予一个从 0 开始的编号.
accessing_symbol -- 和此状态关联的文法符号的编号.
items[] -- 此状态的核心(core)项(item)集, 其值是到 Gram.ritem[] 的索引.
另有属性 nitems 指项的数量. 性能
一个项 (item) 指在文法G的一个产生式再加上一个位于它的体中某处
的点.(编译原理书上的定义). 例如一个产生式 A->XYZ 能够有四个项:
A->.XYZ A->X.YZ A->XY.Z A->XYZ.
而产生式 A->ε 只有一个项 A->.ε. 学习
在论文1中也有关于项的更数学化的表述, 项型为 A->α.β, 其中
A->αβ 是文法 G 的一个产生式. 项在 bison 程序中刚好能够由 Gram.ritem[]
的索引惟一表示. 仔细查看 ritem[] 的结构, 就能够发现这一点, 这也是
为何前面用 ritem[] 数组来记录每一个产生式右部(rhs)的缘由, 我刚开始
看到前面的代码时, 一直不太明白为什么用 ritem[] 结构, 那这里为了表示项(item)
就是它的答案了. 测试
LR0.core 类中, 属性 items[] 中, 有两点须要注意: 1. items[] 中仅保存
这个状态的核心(core)项. (因此这个结构名字叫 core?) 2. items[] 元素的值
是到 Gram.ritem[] 的索引, 且按照增序排列. this
在 LR0.generate_states() 中会调用 Closure.closure() 函数以用于计算一个
core(仅含核心项的 state) 的闭包. 这个闭包概念在书上有说明, 这里不在细述,
加上后面的 new_itemsets() 函数调用, 计算的结果包括:
1. 从 core 推导出的非 core 的项. 和 core 项构成当前正在扫描的
这个状态(this_state)的完整项集(itemset).
2. 从项集为每一个符号 X 计算的全部 GOTO(this_state, X).
3. 获得: 从当前状态的全部 shift; 在当前状态的全部 reduction;
从当前状态可达的下一个状态的集合. 调试
这里如何断定某个状态已经存在了呢? 方法是使用一个 hash 表将全部 core 对象
放在里面, 键就是这个 core 的 items[] 核心项集合. 计算 hash 的方法是将所
有项的编号加起来, 作为 hash 键. 这个方法比较简单, 并且不随项集顺序变化
而变化(加法有可交换性). hash 提供了O(1)的速度性能, 使得查找添加新的状态
足够工程上快速. 具体方法参见 get_state() 函数.
save_shifts() 函数为当前状态建立 shifts 结构, 其记录下在当前状态下的全部
移入转移(shift transmition). shifts 结构中的 shifts_arr[] 数组也是有序的,
有序的这一点的重要性在后面也会依赖到.
save_reductions() 函数为当前状态建立 reductions 结构, 其记录下在当前状态下
可以执行的全部归约.
若是在一个状态, 有多个可能的归约, 就是归约/归约(r/r)冲突. 若是有一个归约,
以及任意符号的移入, 则就是移入/归约(s/r)冲突. 固然这是指 LR0 下的, 由于 LR0
文法比较弱, 容易产生冲突. 对于这一点编译原理书上给出的以下文法例子可用于测试:
S -> L = R | R
L -> * R | id
R -> L
在上述的多个步骤, 原 bison 有 print/dump 出信息以方便查看, 我也添加了一些打印
输出, 建议调试的时候, 仔细看看这些输出结构, 对于理解算法较有 帮助.
另外, 在这一步骤 4. 设置初态和终态, 将状态机补全为增广自动机. 和编译原理书上 所说直接加一个产生式 S'->S 以构成增广文法 G' 相比, bison 彷佛作起来比较笨, 也许是由于早期版本? 后期版本会作得更容易理解吗?