常见的反爬虫措施

时间 2021-05-09

原文原文链接

爬虫工做的过程，就是与反爬虫做斗争的过程，能够这样说，没有遇到反爬的工程师，不是好的爬虫工程师。有不少问题咱们常常遇到，今天就来简单说几个常见的反爬策略。浏览器

1、爬取某网站时，提示“因为访问频繁，须要经过验证码才能访问页面”
解决方法：网站经过用户的Cookie信息对用户进行识别与分析，因此要防止目标网站识别咱们的会话信息。
在Scrapy中，咱们能够在爬虫项目的setting.py文件中进行设置，将setting.py中的下面两行代码里的“COOKIES_ENABLED = False” 的注释去掉便可。
安全

2、爬取过快也会遭到封杀，设置下载延时
部分网站经过分析咱们的爬取频率对爬虫进行禁止或限制，因此咱们须要控制爬取时间间隔。在Scrapy中一样是在setting.py文件中进行设置。咱们能够设置随机间隔时间，这样就毫无规律，不容易被发现。网站

3、设置用户IP代理池
爬虫策略和反爬虫策略都须要用到代理IP，在浏览器设置动态IP。根据浏览器设置动态IP代理，经过变更电脑浏览器更改IP，用于浏览其余的网页。可是对于须要常常更换IP需求者，仍是没有这么方便的。使用http这种方法比较方便并且IP资源的质量也比较好，IPIDEA覆盖全球240+国家地区ip，并稳定，可以知足大量的需求，安全性也能够获得保障。spa