咱们都知道网络上的爬虫很是多,有对网站收录有益的,好比百度蜘蛛(Baiduspider),也有不但不遵照robots 规则对服务器形成压力,还不能为网站带来流量的无用爬虫,好比宜搜蜘蛛(YisouSpider)(最新补充:宜搜蜘蛛已被UC神马搜索收购!因此本文已去掉宜搜蜘蛛的禁封! ==> 相关文章 )。最近张戈发现nginx日志中出现了好多宜搜等垃圾的抓取记录,因而整理收集了网络上各类禁止垃圾蜘蛛爬站的方法,在给本身网作设置的同时,也给各位站长提供参考。php
修改网站目录下的.htaccess,添加以下代码便可(2 种代码任选):html
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC] RewriteRule ^(.*)$ - [F]
SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT Order Allow,Deny Allow from all Deny from env=BADBOT
找到以下相似位置,根据如下代码新增/ 修改,而后重启Apache 便可:nginx
进入到nginx 安装目录下的conf 目录,将以下代码保存为 agent_deny.confsql
cd /usr/local/nginx/confvim
vim agent_deny.conf数组
而后,在网站相关配置中的 location / { 以后插入以下代码:服务器
保存后,执行以下命令,平滑重启nginx 便可:curl
将以下方法放到贴到网站入口文件index.php 中的第一个<?php 以后便可:tcp
若是是vps,那很是简单,使用curl -A 模拟抓取便可,好比:
模拟宜搜蜘蛛抓取:
模拟百度蜘蛛的抓取:
三次抓取结果截图以下:
能够看出,宜搜蜘蛛和UA 为空的返回是403 禁止访问标识,而百度蜘蛛则成功返回200,说明生效!
①、UA 信息为空的垃圾采集被拦截:
②、被禁止的UA 被拦截:
所以,对于垃圾蜘蛛的收集,咱们能够经过分析网站的访问日志,找出一些没见过的的蜘蛛(spider)名称,通过查询无误以后,能够将其加入到前文代码的禁止列表当中,起到禁止抓取的做用。
下面是网络上常见的垃圾UA 列表,仅供参考,同时也欢迎你来补充。