爬虫之全站爬取方法

方法 做过好几个关于网站全站的项目,这里总结一下。 先把上面那张图写下来,全站爬取的两种方法: 关系网络: 优点:简单;可以抓取“热门”数据 缺点:无法抓取全量数据;速度慢;需要解决去重问题 可行性:比较高 遍历ID 优点:可以抓取所有数据;不用数据去重 缺点:资源消耗大;速度慢;可能被发现 可行性:仅可用于ID自增 关于关系网络 其实这个很好理解。比如说知乎,一个大V有100W粉丝,从这个大V出
相关文章
相关标签/搜索