反反爬虫|应对网站反爬虫策略，更高效地爬大量数据

时间 2019-12-10

原文原文链接

1.Headers限制程序员这应该是最多见的，最基本的反爬虫手段，主要是初步判断你是不是真实的浏览器在操做。web 这个通常很好解决，把浏览器中的Headers信息复制上去就OK了。ajax 值得注意的是，不少网站只须要userAgent信息就能够经过，可是有的网站还须要验证一些其余的信息，好比知乎，有一些页面还须要 authorization 的信息。因此须要加哪些Headers，还须要尝试，

>>阅读原文<<