nginx 设置网站访问频率

上周玩客被百度蜘蛛给盯上了,百度蜘蛛对玩客的抓取频率增长了5倍。百度蜘蛛抓取量骤增,致使服务器负载很高。最终用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟容许百度蜘蛛抓取200次,多余的抓取请求返回503。html

   nginx的配置:node

   #全局配置nginx

   limit_req_zone      $anti_spider    zone=anti_spider:60m    rate=200r/m;算法

   #某个server中服务器

    limit_req zone=anti_spider burst=5 nodelay;并发

    if ($http_user_agent ~* “baiduspider”) {ide

       set $anti_spider $http_user_agent;spa

    }orm

   参数说明:server

   指令linit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。

   指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。

   指令limit_req 中的 nodelay 表示当已经达到burst值时,再来新请求时,直接返回503

   IF部分用于判断是不是百度蜘蛛的user agent。若是是,就对变量$anti_spider赋值。这样就作到了只对百度蜘蛛进行限制了。

   详细的参数说明,能够查看官方文档。

   http://nginx.org/en/docs/http/ngx_http_limit_req_module.html#limit_req_zone

   这个模块对请求的限制采用了漏桶算法。

   漏桶算法详见 http://baike.baidu.com/view/2054741.htm

   相关代码请查看nginx源码文件 src/http/modules/ngx_http_limit_req_module.c

   代码的核心部分是ngx_http_limit_req_lookup 方法。

相关文章
相关标签/搜索