浅谈屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路

时间 2019-11-19

原文原文链接

　　网站建设好了，固然是但愿网页被搜索引擎收录的越多越好，但有时候咱们也会碰到网站不须要被搜索引擎收录的状况。nginx

　　好比，你要启用一个新的域名作镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引咱们镜像网站的全部网页。由于若是镜像网站也被搜索引擎收录的话，颇有可能会影响官网在搜索引擎的权重，这确定是咱们不想看到的结果。web

　　如下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，并且是尽量的屏蔽掉全部主流搜索引擎的爬虫（蜘蛛）。数据库

一、经过 robots.txt 文件屏蔽api

　　能够说 robots.txt 文件是最重要的一种渠道（能和搜索引擎创建直接对话）。我经过分析我本身博客的服务器日志文件，给出如下建议（同时欢迎网友补充）：服务器

User-agent: Baiduspideride

Disallow: /工具

User-agent: Googlebotfetch

Disallow: /网站

User-agent: Googlebot-Mobile搜索引擎

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

二、经过 meta tag 屏蔽

　　在全部的网页头部文件添加，添加以下语句：

三、经过服务器（如：Linux/nginx ）配置文件设置

　　直接过滤 spider/robots 的IP 段。

　　小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵照与不遵照 robots.txt 协议的 spider/robots），因此网站上线以后要不断跟踪分析日志，筛选出这些 badbot 的ip，而后屏蔽之。

　　这里有一个badbot ip 数据库：http://www.spam-whackers.com/bad.bots.htm

四、经过搜索引擎提供的站长工具，删除网页快照

　　好比，有的时候百度不严格遵照 robots.txt 协议，能够经过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心：http://tousu.baidu.com/webmaster/add

　　以下图是个人一个网页投诉：

大概3天左右的时间过去，这个网页的百度快照也被删除，说明此种方法也能起效，固然这是不得而为之，属于亡羊补牢。

五、补充更新

　　能够经过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问，而后直接返回403 状态码屏蔽之。好比：因为api 权限与微博信息隐私保护缘由，Xweibo 2.0 版本后禁止搜索引擎收录。

　　关于如何屏蔽搜索引擎爬虫（蜘蛛）抓取/索引/收录网页，您有其余什么更好的建议或者方法，也欢迎发表评论！期待与您交流。

本文做者：Bruce

原文地址：http://www.wuzhisong.com/blog/67/