scrapy--反爬

时间 2021-01-17

原文原文链接

防止爬虫被反主要有以下几个策略： 1.动态设置 User-Agent（随机切换 User-Agent，模拟不同用户的浏览器信息） 2.随机切换ip：1.request.meta['proxy'] = 'xxx.xx.xx.xxx:xx属性设置新的，接入ip代理池，2.下载中间件， 3.动态网页：scrapy和selenium对接 4.禁用cookies：有些网站通过 cookie 的使用发现爬虫行