SEO 使用 robots.txt 文件拦截或删除网页

时间 2020-05-26

标签 seo 使用 robots.txt robots txt 文件拦截删除网页栏目网站开发繁體版

原文原文链接

http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&answer=156449&from=40360&rd=1 javascript

http://www.javascriptkit.com/howto/robots.shtmlphp

robots.txt 文件限制抓取网络的搜索引擎漫游器对您的网站的访问。这些漫游器是自动的，它们在访问任意网站的网页以前，都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。（虽然某些漫游器可能会以不一样的方式解释 robots.txt 文件中的指令，但全部正规的漫游器都会遵循这些指令。然而，robots.txt 不是强制执行的，一些垃圾信息发送者和其余麻烦制造者可能会忽略它。所以，咱们建议对机密信息采用密码保护。）html

只有当您的网站中包含您不想让搜索引擎编入索引的内容时，才须要使用 robots.txt 文件。若是您但愿搜索引擎将网站上的全部内容编入索引，则不须要 robots.txt 文件（甚至连空的 robots.txt 文件也不须要）。java

尽管 Google 不会抓取 robots.txt 拦截的网页内容或将其编入索引，但若是咱们在网络上的其余网页中发现这些内容，咱们仍然会将这些网页的网址编入索引。所以，网页网址，可能还有其余公开信息（如指向网站的连接中的定位文字或开放目录项目 (www.dmoz.org) 中的标题），都有可能会出如今 Google 搜索结果中。web

为了能使用 robots.txt 文件，您必需要有对您域的根目录的访问权限（若是您不能肯定是否有该权限，请与您的网络托管商核实）。若是您没有对域的根目录的访问权限，可使用robots 元标记来限制访问。数据库

要完全禁止网页的内容列在 Google 网络索引中（即便有其余网站连接到此网页），可以使用 noindex 元标记。只要 Googlebot 抓取网页的内容，就会看到 noindex 元标记并禁止网页显示在网络索引中。服务器

您想要作什么？

使用 robots.txt 生成工具生成 robots.txt 文件网络

在网站站长工具首页上，点击所需的网站。
在网站配置下，点击抓取工具访问。
点击生成 robots.txt 标签。
选择您的默认漫游器访问权限。咱们建议您容许全部漫游器运行，并经过如下步骤排除您不但愿其访问您网站的全部特定漫游器。这有助于防止您的网站发生意外拦截重要抓取工具的问题。
指定任何附加规则。例如，要阻止 Googlebot 访问您网站上的全部文件和目录，请按如下步骤操做：
1. 在操做列表中，选择 Disallow。
2. 在漫游器列表中，点击 Googlebot。
3. 在文件或目录框中，键入 /。
4. 点击添加。robots.txt 文件的代码将会自动生成。
保存 robots.txt 文件，方法是下载文件或将内容复制到文本文件并保存为 robots.txt。将文件保存到您网站的顶级目录下。robots.txt 文件必须位于域的根目录中并命名为"robots.txt"。位于子目录中的 robots.txt 文件无效，由于漫游器只在域的根目录中查找此文件。例如，http://www.example.com/漫游器.txt 是一个有效的位置，但 http://www.example.com/个人网站/漫游器.txt 是一个无效的位置。

robots.txt 文件中指定的规则属于请求，而非强制性命令。Googlebot 及全部的知名漫游器都会遵照 robots.txt 文件中的指示。可是，一些无赖漫游器（例如垃圾信息发送者和网络内容非法搜索者的漫游器及其余不良漫游器）可能就不会遵照此文件。所以，咱们建议您将机密信息保存在服务器上受密码保护的目录下。此外，不一样的漫游器对 robots.txt 文件的解译可能不一样，而且并不是全部漫游器都支持文件中的每一个指令。咱们会尽最大努力建立适用于全部漫游器的 robots.txt 文件，但不能保证这些文件的解译效果。ide

要检查您的 robots.txt 文件是否达到了预期的效果，请使用网站站长工具中的 Test robots.txt 工具。工具

手动建立 robots.txt 文件

最简单的 robots.txt 文件使用两条规则：

User-agent：应用如下规则的漫游器
Disallow：要拦截的网址

这两行会视为文件中的一个条目。您可根据须要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。

robots.txt 文件的各个部分都是独立的，而不是在先前部分的基础上构建的。例如：

User-agent: * Disallow: /文件夹 1/User-Agent: Googlebot Disallow: /文件夹 2/

在本例中，只有符合 /文件夹 2/ 的网址才会被 Googlebot 禁止。

User-agent 和漫游器

User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多经常使用的漫游器。您能够将某一条目设置为适用于某一特定漫游器（以显示名称的方式列出）或适用于全部漫游器（以标记为星号的方式列出）。适用于全部漫游器的条目应为如下格式：

User-agent: *

Google 使用多种不一样的漫游器 (User-agent)。咱们的网页搜索所使用的漫游器为Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其余漫游器也会遵循您为 Googlebot 所设置的规则，但您也能够为这些特定的漫游器设置特定的规则。

拦截 User-agent

Disallow 行列出的是您要拦截的网页。您能够列出某一特定的网址或模式。条目应以正斜线 (/) 开头。

要拦截整个网站，请使用正斜线。
```
Disallow: /
```
要拦截某一目录以及其中的全部内容，请在目录名后添加正斜线。
```
Disallow: /无用目录/ 
```
要拦截某个网页，请列出该网页。
```
Disallow: /私人文件.html
```
要从 Google 图片中删除特定图片，请添加如下内容：
```
User-agent: Googlebot-Image Disallow: /p_w_picpaths/狗.jpg 
```
要从 Goo le 图片中除您网站上的全部图片，请执行如下指令：
```
User-agent: Googlebot-Image Disallow: / 
```
要拦截某一特定文件类型的文件（例如 .gif），请使用如下内容：
```
User-agent: Googlebot Disallow: /*.gif$
```
要阻止抓取您网站上的网页，而同时又能在这些网页上显示 Adsense 广告，请禁止除 Mediapartners-Google 之外的全部漫游器。这样可以使网页不出如今搜索结果中，同时又能让 Mediapartners-Google 漫游器分析网页，从而肯定要展现的广告。Mediapartners-Google 漫游器不与其余 Google User-agent 共享网页。例如：
```
User-agent: * Disallow: /  User-agent: Mediapartners-Google Allow: /
```

请注意，指令区分大小写。例如，Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp，却会容许 http://www.example.com/Junk_file.asp。Googlebot 会忽略 robots.txt 中的空白内容（特别是空行）和未知指令。

Googlebot 支持经过 robots.txt 文件提交站点地图文件。

模式匹配

Googlebot（但并不是全部搜索引擎）遵循某些模式匹配原则。

要匹配连续字符，请使用星号 (*)。例如，要拦截对全部以 private 开头的子目录的访问，请使用如下内容：
```
User-agent: Googlebot Disallow: /private*/
```
要拦截对全部包含问号 (?) 的网址的访问（具体地说，这种网址以您的域名开头、后接任意字符串，而后接问号，然后又接任意字符串），请使用如下内容：
```
User-agent: Googlebot Disallow: /*?
```
要指定与某个网址的结尾字符相匹配，请使用 $。例如，要拦截以 .xls 结尾的全部网址，请使用如下内容：
```
User-agent: Googlebot Disallow: /*.xls$
```
您可将此模式匹配与 Allow 指令配合使用。例如，若是 ? 表明一个会话 ID，那么您可能但愿排除包含 ? 的全部网址，以确保 Googlebot 不会抓取重复网页。可是以 ? 结尾的网址多是您但愿包含在内的网页的版本。在此状况下，您能够对您的 robots.txt 文件进行以下设置：
```
User-agent: * Allow: /*?$ Disallow: /*?
```
Disallow: /*? 指令会阻止包含 ? 的全部网址（具体地说，它将拦截全部以您的域名开头、后接任意字符串，而后接问号，然后又接任意字符串的网址）。

Allow: /*?$ 指令将容许以 ? 结尾的任何网址（具体地说，它将容许全部以您的域名开头、后接任意字符串，而后接 ?，? 以后不接任何字符的网址）。

测试 robots.txt 文件

测试 robots.txt 工具可指明您的 robots.txt 文件是否会意外阻止 Googlebot 对您网站上的某个文件或目录的访问，或者它是否会容许 Googlebot 抓取不该显示在网络上的文件。当您输入建议的 robots.txt 文件的文本时，该工具会采用与 Googlebot 相同的方式来读取此文件的文本，并会列出文件的做用以及发现的任何问题。

要测试网站的 robots.txt 文件，请按如下步骤操做：

在网站站长工具主页上，点击所需的网站。
在网站配置下，点击抓取工具访问
若是还没有选中，请点击测试 robots.txt 标签。
复制您的 robots.txt 文件的内容，并将其粘贴到第一个框中。
在网址框中，列出要用于测试的网站。
在 User-agent 列表中，选择所需的 User-agent。

系统不会保存您对此工具所作的任何更改。要保存所作的更改，您须要复制相关内容并将其粘贴到您的 robots.txt 文件中。

此工具只为 Google User-agent（如 Googlebot）提供结果。其余漫游器可能没法以相同的方式解译 robots.txt 文件。例如，Googlebot 支持标准 robots.txt 协议的扩展定义。它能够解析 Allow: 指令以及某些模式匹配。所以，尽管工具会将包含这些扩展名的行显示为已解析，但请切记，这只适用于 Googlebot，而并不必定适用于可能抓取您网站的其余漫游器。