GNE: 新闻网页正文通用抽取器更新了0.2.1版本,大幅度提升了正文的提取速度。在开发这个版本的时候,我遇到了一个很是奇怪的 Bug,最终发现是因为垃圾回收机制和内存重用机制致使的。今天咱们来看看这个问题。html
先来看一段代码:python
这段代码读取tests/163/9.html
这个文件里面的 HTML 代码,分别获取 <body>
下面的全部标签内部的全部<a>
标签中的文本。提及来可能有点绕口,我举个例子。git
<body>
<div>
<a href="/xx">你好</a>
</div>
<h2>
<a>世界</a>
</h2>
</body>
复制代码
分别获取<div>
标签和<h2>
标签下面的<a>
标签中的文本,也就是你好
和世界
。github
但这段代码有个问题,就是对于嵌套结构的标签,会重复提取。例如:缓存
<body>
<div>
<h2>
<a href="/xx">你好</a>
</h2>
</div>
</body>
复制代码
首先,获取<div>
标签下面的<a>
标签,获取到的是你好
所在的<a>
标签。可是,获取<h2>
标签下面的<a>
标签时,获取的仍然是同一个<a>
标签。app
这样一来,在上图代码里面第15-20行就会重复执行两次。spa
为了提升代码的运行效率,咱们引入缓存,记录每个<a>
标签的分析结果,若是发现一个<a>
标签已经被分析了,就直接使用缓存的结果,避免重复分析。调试
因而,代码修改为下面这样:code
代码第18行的str(element)
对应了这个节点的内存地址,以下图所示:cdn
这段代码看起来彷佛没有什么问题,但在实际提取数据的时候,发现提取的结果不太正常。
为了调试这个问题,我对代码作了一下修改:
能够看到,同一个 HTML 标签,以前缓存的结果居然跟新提取的不同。
因而,我想看看每次提取的时候,对应的 element 是哪一个,但却发生了更诡异的事情,咱们作一个看起来对代码不会有任何影响的改动:
图4里面,咱们直接把element_text_list
缓存起来。图5里面,咱们把[element_text_list, element]
缓存起来,读取的时候,读取这个列表的下标为0的元素。也就是说,这个缓存的element
咱们根本不使用。
但奇怪的事情就这样发生了,问题消失了!在图4大量打印的同一个标签,缓存的数据跟提取的数据不一致!
,在图5里面却一条都没有打印。这样修改之后,GNE 的提取的结果就正确了。
但为何会发生这种事情呢?难道说跟缓存的结果有关系?那么咱们把列表里面的 element
改为其余数据看看:
仅仅是把element
改为了数字1,Bug 又出现了。
它彷佛知道我在试图去观察它,当我尝试用代码去观察 element
时,它就一切正常。当我不观察它时,它就会出问题。薛定谔的 element
。
遇事不决,量子力学。这个问题跟量子力学实际上没有关系。致使这个诡异状况发生的缘由,是一个一直运行在 Python 里面,可是你经常忽略的机制——垃圾回收。
Python 会把再也不使用的对象清理掉,从而释放内存。当咱们执行一个 for 循环时:
for element in element_list:
a = element.xpath('//xxx')
b = element.xpath('.//text()')
c = 1 + 1
复制代码
循环第一次执行的时候,生成第一个element
对象,可是这个对象在循环第二次执行的时候就被新的element
对象覆盖了。由于没有其余地方继续使用第一个 element
对象,它的引用计数归零,Python 的垃圾回收机制就会把它清理掉。它占用的内存空间也会被释放出来。
但若是换一种写法:
cache = []
for element in element_list:
a = element.xpath('//xxx')
b = element.xpath('.//text()')
c = 1 + 1
cache.append(element)
复制代码
因为列表cache
中包含了对每一个 element
对象的引用,致使第一次循环生成的element
对象的引用计数不为0,垃圾回收机制不会回收它,它始终占用了一块内存区域。这块区域不会被其余数据使用。那么每次循环,新的element
对象都会新申请一块内存区域来存放数据,因而就等价于每个不一样的 element
节点对应了不一样的内存地址。
在示例代码里面,你们注意element_flag = str(element)
这一行,它的值相似于<Element a at 0x1087ba638>
,这里的十六进制数字0x1087ba638
对应了这个对象在内存里面的地址。
一开始,我有一个不正确的假设,我觉得str(element)
的值,对应的 HTML 里面的每一个节点。同一个节点,屡次执行,结果都同样,不一样的节点,屡次执行,结果都不同。
但实际上这是不正确的。由于若是前一个节点的内存区域被垃圾回收了,那么这个区域会被从新分配,新来的节点可能碰巧会放到这个地方,这就致使两个不一样的 <a>
标签,当你执行str(element)
时,他们打印出来的结果都是相同的。可是实际上他们的正文不同。
而当我使用element_text_cache[element_flag] = [element_text_list, element]
时,因为每一个element
对象不会被回收,因而就不会出现不一样的节点互相覆盖的问题,因此它的工做就符合了预期。
因此,bug 的根本缘由在于,我不该该使用str(element)
做为缓存的 Key,应该找一个跟 HTML 节点一一对应的东西来做为 Key。显然,使用 XPath 更好。
因而,修改代码,把element_flag
改为 XPath:
问题得以解决。