爬虫之全站爬取方法

时间 2021-01-15

原文原文链接

方法做过好几个关于网站全站的项目，这里总结一下。先把上面那张图写下来，全站爬取的两种方法：关系网络：优点：简单；可以抓取“热门”数据缺点：无法抓取全量数据；速度慢；需要解决去重问题可行性：比较高遍历ID 优点：可以抓取所有数据；不用数据去重缺点：资源消耗大；速度慢；可能被发现可行性：仅可用于ID自增关于关系网络其实这个很好理解。比如说知乎，一个大V有100W粉丝，从这个大V出

>>阅读原文<<