原题 | Visualizing PEG Parsingpython
做者 | Guido van Rossum(Python之父)git
译者 | 豌豆花下猫(“Python猫”公众号做者)程序员
声明 | 本翻译是出于交流学习的目的,基于 CC BY-NC-SA 4.0 受权协议。为便于阅读,内容略有改动。github
上周我展现了一个简单的 PEG 解析器生成器。本周我将展现生成的解析器在解析程序时实际执行的操做。我深刻研究了 ASCII 艺术的复古世界,特别是一个名为“curses”的库,它能够在 Linux 和 Mac 的 Python 标准库中找到,也能够做为 Windows 的附加组件。算法
【这是个人 PEG 系列的第 4 部分。见第1部分,第2部分,第3部分,第5部分 】(译注:对应的译文,第1篇、第2篇、第3篇、第5篇待译 )segmentfault
让咱们来看看可视化已取得的进展。截图里的屏幕被分隔为三个部分,分别是简单的 ASCII 字符,以及用连字符划出的线:缓存
阅读此图表时,要注意的主要事项是:顶部和底部部分的缩进线与标记符缓冲区相对应。(译注:最好看一下后面的 gif 动图,再往下看这部份内容。)学习
statement
和assignment
开头)表示还没有返回的解析方法调用,而且当标记位置处在第一个标记符('aap' )以前时调用。expr
和term
开头)与标记符'cat'
的开头垂直对齐,后者是调用相应解析方法的地方。expect('/')
调用,它返回 None 。它是在标记符'+'
处被调用的。缓存部分的条目的缩进也对应着标记符缓冲区的位置。例如,在底部,咱们看到有负数缓存条目(negative cache entries)在标记符缓冲区的开头查找标记符'if'
以及规则if_statement
。咱们还发现标记符'='
和NAME
(特别是'cat'
)所成功缓存的条目,它们与未来的输入位置相对应。动画
在显示出来的解析器堆栈和缓存中,已返回的调用被显示成function(args) -> result
。有时解析器堆栈也会显示几个已返回的方法——我这样作是为了减小显示时的“跳跃性”。 ui
(说到“跳跃”,顶部显示的解析器堆栈会在一个调用被添加到堆栈时,向上移动,而当从堆栈中弹出一个调用时,它则向下移动。彷佛咱们的眼睛跟随这样的动做不会有太大问题——至少我没有。这极可能由于咱们大脑中有一块区域是用于跟踪移动的物体。:-)
缓存被可视化为一种 LRU 缓存,最近使用过的缓存条目位于顶部,较少使用的项目则向屏幕底部掉落。(我在以前的帖子中展现的 packrat 解析器原型不使用 LRU,但它多是改善其内存使用的好策略。)
让咱们看一下解析堆栈在显示时的更多一些细节。前四个条目对应于还没有返回的解析方法,每一行显示了语法中的一行。带下划线的条目会引发下一次调用。
在这种状况下,咱们看到咱们处于 statement 的第二种选择,也即 assignment,而且在该规则中咱们处于第三项,即 expr。在 expr 规则中,咱们只是在第一个可选项的第一个条目(term '+' expr
);而在 term 规则中,咱们处在最后的选项(atom
)。
在那以后,咱们看到致使第二个选项(atom '/' term
)失败的结果:expect('/') - > None
用 '+' 标记符缩进。当咱们将可视化向前移动时,咱们会看到它沉入缓存中。
但固然了,你确定宁愿本身看动画!我已经录制了示例程序的完整解析。你也能够本身玩代码,但请注意,这只是一个临时的黑科技。
gif图: https://raw.githubusercontent...
当你在观看录制的GIF时,可能会感到有些迷惑,有时下一个标记符还未显示(例如,在最开始时,堆栈在标记符'aap'
被显示以前,就增加了几个条目)。
这正是解析器所看到的:标记符缓冲区被延迟地填充,而且在解析器经过调用 expect() 来请求它们以前,并不会扫描标记符。一旦标记符出如今缓冲区中,它就会保留在那里,即使在解析器回溯时也如此。
标记符缓冲区中的光标向左跳跃,显示了回溯过程;该动图中有不少次出现这种现象。你还能够在 gif 中观察到缓存填充,解析器在那不会进行额外的递归调用。(发现这种状况时,我应该加以强调,但我没时间了。)
下周我将进一步开发解析器,极可能会添加我对左递归语法规则的实现。(它们很棒!)
致谢:录制时所用的ttygif
(Ilia Choly 开发) 和 ttyrec
(Matthew Jording 开发)。
本文内容、示例代码和图片的受权协议:CC BY-NC-SA 4.0
英文原文:https://medium.com/@gvanrossum_83706/visualizing-peg-parsing-93a36f259423
做者简介: Guido van Rossum,Python 的创造者,一直是“终身仁慈独裁者”,直到 2018 年 7 月 12 日退位。目前,他是新的最高决策层的五位成员之一,依然活跃在社区中。本文出自他在 Medium 开博客所写的解析器系列,该系列仍在连载中,每周日更新。
译者简介: 豌豆花下猫,生于广东毕业于武大,现为苏漂程序员,有一些极客思惟,也有一些人文情怀,有一些温度,还有一些态度。公众号:「Python猫」(python_cat)。
公众号【Python猫】, 本号连载优质的系列文章,有喵星哲学猫系列、Python进阶系列、好书推荐系列、技术写做、优质英文推荐与翻译等等,欢迎关注哦。