惊呆了，个人 Python 代码里面出现了薛定谔的 Bug

时间 2020-07-06

标签惊呆个人 python 代码里面出现薛定谔 bug 栏目 Python 繁體版

原文原文链接

GNE: 新闻网页正文通用抽取器更新了0.2.1版本，大幅度提升了正文的提取速度。在开发这个版本的时候，我遇到了一个很是奇怪的 Bug，最终发现是因为垃圾回收机制和内存重用机制致使的。今天咱们来看看这个问题。html

问题背景

先来看一段代码：python

这段代码读取tests/163/9.html这个文件里面的 HTML 代码，分别获取 <body> 下面的全部标签内部的全部<a>标签中的文本。提及来可能有点绕口，我举个例子。git

<body>
    <div>
        <a href="/xx">你好</a>
    </div>
    <h2>
        <a>世界</a>
    </h2>
</body>
复制代码

分别获取<div>标签和<h2>标签下面的<a>标签中的文本，也就是你好和世界。github

但这段代码有个问题，就是对于嵌套结构的标签，会重复提取。例如：缓存

<body>
    <div>
        <h2>
            <a href="/xx">你好</a>
        </h2>
    </div>
</body>
复制代码

首先，获取<div>标签下面的<a>标签，获取到的是你好所在的<a>标签。可是，获取<h2>标签下面的<a>标签时，获取的仍然是同一个<a>标签。app

这样一来，在上图代码里面第15-20行就会重复执行两次。spa

为了提升代码的运行效率，咱们引入缓存，记录每个<a>标签的分析结果，若是发现一个<a>标签已经被分析了，就直接使用缓存的结果，避免重复分析。调试

因而，代码修改为下面这样：code

代码第18行的str(element)对应了这个节点的内存地址，以下图所示：cdn

这段代码看起来彷佛没有什么问题，但在实际提取数据的时候，发现提取的结果不太正常。

薛定谔的 Element

为了调试这个问题，我对代码作了一下修改：

能够看到，同一个 HTML 标签，以前缓存的结果居然跟新提取的不同。

因而，我想看看每次提取的时候，对应的 element 是哪一个，但却发生了更诡异的事情，咱们作一个看起来对代码不会有任何影响的改动：

图4里面，咱们直接把element_text_list缓存起来。图5里面，咱们把[element_text_list, element]缓存起来，读取的时候，读取这个列表的下标为0的元素。也就是说，这个缓存的element咱们根本不使用。

但奇怪的事情就这样发生了，问题消失了！在图4大量打印的同一个标签，缓存的数据跟提取的数据不一致！，在图5里面却一条都没有打印。这样修改之后，GNE 的提取的结果就正确了。

但为何会发生这种事情呢？难道说跟缓存的结果有关系？那么咱们把列表里面的 element改为其余数据看看：

仅仅是把element改为了数字1，Bug 又出现了。

它彷佛知道我在试图去观察它，当我尝试用代码去观察 element时，它就一切正常。当我不观察它时，它就会出问题。薛定谔的 element。

看不见的手

遇事不决，量子力学。这个问题跟量子力学实际上没有关系。致使这个诡异状况发生的缘由，是一个一直运行在 Python 里面，可是你经常忽略的机制——垃圾回收。

Python 会把再也不使用的对象清理掉，从而释放内存。当咱们执行一个 for 循环时：

for element in element_list:
    a = element.xpath('//xxx')
    b = element.xpath('.//text()')
    c = 1 + 1
复制代码

循环第一次执行的时候，生成第一个element对象，可是这个对象在循环第二次执行的时候就被新的element对象覆盖了。由于没有其余地方继续使用第一个 element 对象，它的引用计数归零，Python 的垃圾回收机制就会把它清理掉。它占用的内存空间也会被释放出来。

但若是换一种写法：

cache = []
for element in element_list:
    a = element.xpath('//xxx')
    b = element.xpath('.//text()')
    c = 1 + 1
    cache.append(element)
复制代码

因为列表cache中包含了对每一个 element 对象的引用，致使第一次循环生成的element对象的引用计数不为0，垃圾回收机制不会回收它，它始终占用了一块内存区域。这块区域不会被其余数据使用。那么每次循环，新的element对象都会新申请一块内存区域来存放数据，因而就等价于每个不一样的 element 节点对应了不一样的内存地址。

在示例代码里面，你们注意element_flag = str(element)这一行，它的值相似于<Element a at 0x1087ba638>，这里的十六进制数字0x1087ba638对应了这个对象在内存里面的地址。

一开始，我有一个不正确的假设，我觉得str(element)的值，对应的 HTML 里面的每一个节点。同一个节点，屡次执行，结果都同样，不一样的节点，屡次执行，结果都不同。

但实际上这是不正确的。由于若是前一个节点的内存区域被垃圾回收了，那么这个区域会被从新分配，新来的节点可能碰巧会放到这个地方，这就致使两个不一样的 <a> 标签，当你执行str(element)时，他们打印出来的结果都是相同的。可是实际上他们的正文不同。

而当我使用element_text_cache[element_flag] = [element_text_list, element]时，因为每一个element对象不会被回收，因而就不会出现不一样的节点互相覆盖的问题，因此它的工做就符合了预期。

解决问题

因此，bug 的根本缘由在于，我不该该使用str(element)做为缓存的 Key，应该找一个跟 HTML 节点一一对应的东西来做为 Key。显然，使用 XPath 更好。

因而，修改代码，把element_flag改为 XPath：

问题得以解决。