如今有许多初学者学习网络爬虫,但他们不懂得控制速度,致使服务器资源浪费。经过 Nginx 的简单配置,能过滤一小部分这类爬虫。php
Nginx 参考配置以下:html
location / { if ($http_user_agent ~* "scrapy|python|curl|java|wget|httpclient|okhttp") { return 503; } # 正常请求 }
这里只列出了部分爬虫的 User-Agent,须要更多请参考:GitHub - JayBizzle/Crawler-Detectjava
注意:User-Agent 很容易修改node
经过禁止某个 IP 或者某个 IP 段访问,也能起到必定效果。 Nginx 示例配置以下:python
deny 178.238.234.1; deny 1.32.128.0/18;
经过限制某个 IP 的访问频率,避免一部分 CC (Challenge Collapsar)攻击。nginx
Nginx 示例配置以下:git
http{ #定义一个名为allips的limit_req_zone用来存储session,大小是10M内存, #以$binary_remote_addr 为key,限制平均每秒的请求为20个, #1M能存储16000个状态,rete的值必须为整数, #若是限制两秒钟一个请求,能够设置成30r/m limit_req_zone $binary_remote_addr zone=allips:10m rate=20r/s; ... server{ ... location { ... #限制每ip每秒不超过20个请求,漏桶数burst为5 #brust的意思就是,若是第1秒、2,3,4秒请求为19个, #第5秒的请求为25个是被容许的。 #可是若是你第1秒就25个请求,第2秒超过20的请求返回503错误。 #nodelay,若是不设置该选项,严格使用平均速率限制请求数, #第1秒25个请求时,5个请求放到第2秒执行, #设置nodelay,25个请求将在第1秒执行。 limit_req zone=allips burst=5 nodelay; ... } ... } ... }
固然,攻击者也能够使用代理IP来破除频率限制。建议在网站前面加一层 CDN。github
参考:nginx限制某个IP同一时间段的访问次数服务器
首发地址:使用 Nginx 过滤网络爬虫 | 蜻蜓代理网络