当爬虫被拒绝时(Access Denied)

     因为要准备测试数据,不得不大量爬取某个网站的内容。为了防止被封,特地将爬虫设计为单线程同步的爬虫。结果在爬了大约3万个页面的时候,对方发回Access Denied。等一段时间后再启动爬虫,结果仍是Access Denied。这时才明白这样的想法太天真了,当初就应该找其它方法来避免才对。而本文则记述了这些其它方法。html 1. 假装user agent       User agent
相关文章
相关标签/搜索