Duplicate Elimination in Scrapy(转)

以前介绍 Scrapy 的时候提过 Spider Trap ,实际上,就算是正常的网络拓扑,也是很复杂的相互连接,虽然我当时给的那个例子对于我感兴趣的内容是能够有一个线性顺序依次爬下来的,可是这样的状况在真正的网络结构中一般是少之又少,一但连接网络出现环路,就没法进行拓扑排序而得出一个依次遍历的顺序了,因此 duplicate elimination 能够说是每个 non-trivial 的必备组
相关文章
相关标签/搜索