服务器反爬虫攻略：Apache/Nginx/PHP禁止某些User Agent抓取网站

时间 2019-12-13

标签服务器爬虫攻略 apache nginx php 禁止某些 user agent 抓取网站栏目网络爬虫繁體版

原文原文链接

咱们都知道网络上的爬虫很是多，有对网站收录有益的，好比百度蜘蛛（Baiduspider），也有不但不遵照robots 规则对服务器形成压力，还不能为网站带来流量的无用爬虫，好比~~宜搜蜘蛛（YisouSpider）~~（最新补充：宜搜蜘蛛已被UC神马搜索收购！因此本文已去掉宜搜蜘蛛的禁封！ ==> 相关文章 )。最近张戈发现nginx日志中出现了好多宜搜等垃圾的抓取记录，因而整理收集了网络上各类禁止垃圾蜘蛛爬站的方法，在给本身网作设置的同时，也给各位站长提供参考。php

1、Apache

①、经过修改.htaccess 文件

修改网站目录下的.htaccess，添加以下代码便可（2 种代码任选）：html

可用代码(1)：

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]
RewriteRule ^(.*)$ - [F]

可用代码(2)：

SetEnvIfNoCase ^User-Agent$ .*(FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT
Order Allow,Deny
Allow from all
Deny from env=BADBOT

②、经过修改httpd.conf 配置文件

找到以下相似位置，根据如下代码新增/ 修改，而后重启Apache 便可：nginx

2、Nginx 代码

进入到nginx 安装目录下的conf 目录，将以下代码保存为 agent_deny.confsql

cd /usr/local/nginx/confvim

vim agent_deny.conf数组

而后，在网站相关配置中的 location / { 以后插入以下代码：服务器

保存后，执行以下命令，平滑重启nginx 便可：curl

3、PHP 代码

将以下方法放到贴到网站入口文件index.php 中的第一个<?php 以后便可：tcp

4、测试效果

若是是vps，那很是简单，使用curl -A 模拟抓取便可，好比：

模拟宜搜蜘蛛抓取：

模拟百度蜘蛛的抓取：

三次抓取结果截图以下：

能够看出，宜搜蜘蛛和UA 为空的返回是403 禁止访问标识，而百度蜘蛛则成功返回200，说明生效！

补充：次日，查看nginx 日志的效果截图：

①、UA 信息为空的垃圾采集被拦截：

②、被禁止的UA 被拦截：

所以，对于垃圾蜘蛛的收集，咱们能够经过分析网站的访问日志，找出一些没见过的的蜘蛛（spider）名称，通过查询无误以后，能够将其加入到前文代码的禁止列表当中，起到禁止抓取的做用。

5、附录：UA 收集

下面是网络上常见的垃圾UA 列表，仅供参考，同时也欢迎你来补充。