判断爬取的文件数量是否完全

描述:最近爬取了某大学的论文网站上面的论文,但是发现网页上数量是227篇,我下载下来只有226篇,所以写了此代码想找出来少了那一篇。 过程中,我先是判断了两个列表中是否存在不同的元素并输出,但是发现是完全相同的,接着我就想可能是网页中存在重复的元素,就判断了urll列表中是否自身包含重复元素。 结果:最后发现该网站类别下有两篇相同的文章,我的爬虫代码里有判断去重,所以只下载了226篇。 代码: f
相关文章
相关标签/搜索