Duplicate Elimination in Scrapy(转)

时间 2020-11-23

标签 python 算法 sql 数据库网络数据结构框架 dom 异步 scrapy 栏目 Python 繁體版

原文原文链接

以前介绍 Scrapy 的时候提过 Spider Trap ，实际上，就算是正常的网络拓扑，也是很复杂的相互连接，虽然我当时给的那个例子对于我感兴趣的内容是能够有一个线性顺序依次爬下来的，可是这样的状况在真正的网络结构中一般是少之又少，一但连接网络出现环路，就没法进行拓扑排序而得出一个依次遍历的顺序了，因此 duplicate elimination 能够说是每个 non-trivial 的必备组

>>阅读原文<<