http://www.google.com/support/webmasters/bin/answer.py?hl=zh-Hans&answer=156449&from=40360&rd=1 javascript
http://www.javascriptkit.com/howto/robots.shtmlphp
robots.txt 文件限制抓取网络的搜索引擎漫游器对您的网站的访问。这些漫游器是自动的,它们在访问任意网站的网页以前,都会查看是否存在阻止它们访问特定网页的 robots.txt 文件。(虽然某些漫游器可能会以不一样的方式解释 robots.txt 文件中的指令,但全部正规的漫游器都会遵循这些指令。然而,robots.txt 不是强制执行的,一些垃圾信息发送者和其余麻烦制造者可能会忽略它。所以,咱们建议对机密信息采用密码保护。)html
只有当您的网站中包含您不想让搜索引擎编入索引的内容时,才须要使用 robots.txt 文件。若是您但愿搜索引擎将网站上的全部内容编入索引,则不须要 robots.txt 文件(甚至连空的 robots.txt 文件也不须要)。java
尽管 Google 不会抓取 robots.txt 拦截的网页内容或将其编入索引,但若是咱们在网络上的其余网页中发现这些内容,咱们仍然会将这些网页的网址编入索引。所以,网页网址,可能还有其余公开信息(如指向网站的连接中的定位文字或开放目录项目 (www.dmoz.org) 中的标题),都有可能会出如今 Google 搜索结果中。web
为了能使用 robots.txt 文件,您必需要有对您域的根目录的访问权限(若是您不能肯定是否有该权限,请与您的网络托管商核实)。若是您没有对域的根目录的访问权限,可使用robots 元标记来限制访问。数据库
要完全禁止网页的内容列在 Google 网络索引中(即便有其余网站连接到此网页),可以使用 noindex 元标记。只要 Googlebot 抓取网页的内容,就会看到 noindex 元标记并禁止网页显示在网络索引中。服务器
使用 robots.txt 生成工具生成 robots.txt 文件网络
robots.txt 文件中指定的规则属于请求,而非强制性命令。Googlebot 及全部的知名漫游器都会遵照 robots.txt 文件中的指示。可是,一些无赖漫游器(例如垃圾信息发送者和网络内容非法搜索者的漫游器及其余不良漫游器)可能就不会遵照此文件。所以,咱们建议您将机密信息保存在服务器上受密码保护的目录下。此外,不一样的漫游器对 robots.txt 文件的解译可能不一样,而且并不是全部漫游器都支持文件中的每一个指令。咱们会尽最大努力建立适用于全部漫游器的 robots.txt 文件,但不能保证这些文件的解译效果。ide
要检查您的 robots.txt 文件是否达到了预期的效果,请使用网站站长工具中的 Test robots.txt 工具。工具
最简单的 robots.txt 文件使用两条规则:
这两行会视为文件中的一个条目。您可根据须要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。
robots.txt 文件的各个部分都是独立的,而不是在先前部分的基础上构建的。例如:
User-agent: * Disallow: /文件夹 1/User-Agent: Googlebot Disallow: /文件夹 2/
在本例中,只有符合 /文件夹 2/ 的网址才会被 Googlebot 禁止。
User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多经常使用的漫游器。您能够将某一条目设置为适用于某一特定漫游器(以显示名称的方式列出)或适用于全部漫游器(以标记为星号的方式列出)。适用于全部漫游器的条目应为如下格式:
User-agent: *
Google 使用多种不一样的漫游器 (User-agent)。咱们的网页搜索所使用的漫游器为Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其余漫游器也会遵循您为 Googlebot 所设置的规则,但您也能够为这些特定的漫游器设置特定的规则。
Disallow 行列出的是您要拦截的网页。您能够列出某一特定的网址或模式。条目应以正斜线 (/) 开头。
Disallow: /
Disallow: /无用目录/
Disallow: /私人文件.html
User-agent: Googlebot-Image Disallow: /p_w_picpaths/狗.jpg
User-agent: Googlebot-Image Disallow: /
User-agent: Googlebot Disallow: /*.gif$
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
请注意,指令区分大小写。例如,Disallow: /junk_file.asp
会拦截 http://www.example.com/junk_file.asp,却会容许 http://www.example.com/Junk_file.asp。Googlebot 会忽略 robots.txt 中的空白内容(特别是空行)和未知指令。
Googlebot 支持经过 robots.txt 文件提交站点地图文件。
Googlebot(但并不是全部搜索引擎)遵循某些模式匹配原则。
User-agent: Googlebot Disallow: /private*/
User-agent: Googlebot Disallow: /*?
User-agent: Googlebot Disallow: /*.xls$
您可将此模式匹配与 Allow 指令配合使用。例如,若是 ? 表明一个会话 ID,那么您可能但愿排除包含 ? 的全部网址,以确保 Googlebot 不会抓取重复网页。可是以 ? 结尾的网址多是您但愿包含在内的网页的版本。在此状况下,您能够对您的 robots.txt 文件进行以下设置:
User-agent: * Allow: /*?$ Disallow: /*?
Disallow: /*? 指令会阻止包含 ? 的全部网址(具体地说,它将拦截全部以您的域名开头、后接任意字符串,而后接问号,然后又接任意字符串的网址)。
Allow: /*?$ 指令将容许以 ? 结尾的任何网址(具体地说,它将容许全部以您的域名开头、后接任意字符串,而后接 ?,? 以后不接任何字符的网址)。
测试 robots.txt 工具可指明您的 robots.txt 文件是否会意外阻止 Googlebot 对您网站上的某个文件或目录的访问,或者它是否会容许 Googlebot 抓取不该显示在网络上的文件。当您输入建议的 robots.txt 文件的文本时,该工具会采用与 Googlebot 相同的方式来读取此文件的文本,并会列出文件的做用以及发现的任何问题。
要测试网站的 robots.txt 文件,请按如下步骤操做:
系统不会保存您对此工具所作的任何更改。要保存所作的更改,您须要复制相关内容并将其粘贴到您的 robots.txt 文件中。
此工具只为 Google User-agent(如 Googlebot)提供结果。其余漫游器可能没法以相同的方式解译 robots.txt 文件。例如,Googlebot 支持标准 robots.txt 协议的扩展定义。它能够解析 Allow: 指令以及某些模式匹配。所以,尽管工具会将包含这些扩展名的行显示为已解析,但请切记,这只适用于 Googlebot,而并不必定适用于可能抓取您网站的其余漫游器。