有时候会有一些站点内容,不但愿被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另外一个是The Robots META标签。
1,<meta name="Robots" contect="all|none|index|noindex|follow|nofollow"> 默认是all
其中的属性说明以下:
设定为all:文件将被检索,且页面上的连接能够被查询;
设定为none:文件将不被检索,且页面上的连接不能够被查询;
设定为index:文件将被检索;
设定为follow:页面上的连接能够被查询;
设定为noindex:文件将不被检索,但页面上的连接能够被查询;
设定为nofollow:文件将不被检索,页面上的连接能够被查询。
2,revisit-after (重访)
<META name="revisit-after" CONTENT="7 days" >
通知搜索引擎多少天访问一次
其余的:
<META NAME="GENERATOR" CONTENT="Macromedia Dreamweaver MX">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<Meta http-equiv="Content-Language" Content="zh-CN">
<Meta http-equiv="Refresh" Content="5; Url=http://hi.baidu.com/pihi">
<Meta http-equiv="Expires" Content="Wed, 26 Feb 1997 08:21:57 GMT">
<meta http-equiv="cache-control" content="no-cache">
<META name="keywords" content="关键字">
<meta name="description" content="描述">
<meta name="author" content="做者">
<meta name="build" content="日期">
<meta name="coprright" content="版权">
<meta name="reply-to" content="email">
<meta name="robots" content="all">
<meta http-equiv="Page-Enter" content="RevealTrans (Duration=3, Transition=23)">
<meta http-equiv="Page-Exit" content="RevealTrans (Duration=3, Transition=23)">
<link rel="shortcut icon" href="favicon.ico">
------------------------------------------------------------------------------------------------------------
meta标签分两大部分:HTTP标题信息(HTTP-EQUIV)和页面描述信息(NAME)。
一、Content-Type和Content-Language (显示字符集的设定)
说明:设定页面使用的字符集,用以说明主页制做所使用的文字已经语言,浏览器会根据此来调用相应的字符集显示page内容。
注意: 该meta标签订义了HTML页面所使用的字符集为GB2132,就是国标汉字码。若是将其中的“charset=GB2312”替换成“BIG5”,则该页面所用的字符集就是繁体中文Big5码。当你浏览一些国外的站点时,IE浏览器会提示你要正确显示该页面须要下载xx语支持。这个功能就是经过读取HTML页面Meta标签的Content-Type属性而得知须要使用哪一种字符集显示该页面的。若是系统里没有装相应的字符集,则IE就提示下载。其余的语言也对应不一样的charset,好比日文的字符集是“iso-2022-jp ”,韩文的是“ks_c_5601”。
Charset选项:ISO-8859-1(英文)、BIG五、UTF-八、SHIFT-Jis、Euc、Koi8-二、us-ascii, x-mac-roman, iso-8859-2, x-mac-ce, iso-2022-jp, x-sjis, x-euc-jp,euc-kr, iso-2022-kr, gb2312, gb_2312-80, x-euc-tw, x-cns11643-1,x-cns11643-2等字符集;Content-Language的Content还能够是:EN、FR等语言代码。
二、Refresh (刷新)
三、Expires (期限)
说明:指定网页在缓存中的过时时间,一旦网页过时,必须到服务器上从新调阅。
注意:必须使用GMT的时间格式,或直接设为0(数字表示多少时间后过时)。
四、Pragma (cach模式)
说明:禁止浏览器从本地机的缓存中调阅页面内容。
注意:网页不保存在缓存中,每次访问都刷新页面。这样设定,访问者将没法脱机浏览。
五、Set-Cookie (cookie设定)
说明:浏览器访问某个页面时会将它存在缓存中,下次再次访问时就可从缓存中读取,以提升速度。当你但愿访问者每次都刷新你广告的图标,或每次都刷新你的计数器,就要禁用缓存了。一般HTML文件没有必要禁用缓存,对于ASP等页面,就可使用禁用缓存,由于每次看到的页面都是在服务器动态生成的,缓存就失去意义。若是网页过时,那么存盘的cookie将被删除。
用法:<Meta http-equiv="Set-Cookie" Content="cookievalue=xxx; expires=Wednesday,
21-Oct-98 16:14:21 GMT; path=/">
注意:必须使用GMT的时间格式。
六、Window-target (显示窗口的设定)
说明:强制页面在当前窗口以独立页面显示。
用法:<Meta http-equiv="Widow-target" Content="_top">
注意:这个属性是用来防止别人在框架里调用你的页面。Content选项:_blank、_top、_self、_parent。
七、Pics-label (网页RSAC等级评定)
说明:在IE的Internet选项中有一项内容设置,能够防止浏览一些受限制的网站,而网站的限制级
别就是经过该参数来设置的。
用法:<META http-equiv="Pics-label" Contect=
"(PICS-1.1'http://www.rsac.org/ratingsv01.html'
I gen comment 'RSACi North America Sever' by 'inet@microsoft.com'
for 'http://www.microsoft.com' on '1997.06.30T14:21-0500' r(n0 s0 v0 l0))">
注意:不要将级别设置的过高。RSAC的评估系统提供了一种用来评价Web站点内容的标准。用户能够设置Microsoft Internet Explorer(IE3.0以上)来排除包含有色情和暴力内容的站点。上面这个例子中的HTML取自Microsoft的主页。代码中的(n 0 s 0 v 0 l 0)表示该站点不包含不健康内容。级别的评定是由RSAC,即美国娱乐委员会的评级机构评定的,若是你想进一步了解RSAC评估系统的等级内容,或者你须要评价本身的网站,能够访问RSAC的站点:http://www.rsac.org/。
八、Page-Enter、Page-Exit (进入与退出)
说明:这个是页面被载入和调出时的一些特效。
用法:<Meta http-equiv="Page-Enter" Content="blendTrans(Duration=0.5)">
<Meta http-equiv="Page-Exit" Content="blendTrans(Duration=0.5)">
注意:blendTrans是动态滤镜的一种,产生渐隐效果。另外一种动态滤镜RevealTrans也能够用于页面进入与退出效果:
<Meta http-equiv="Page-Enter" Content="revealTrans(duration=x, transition=y)">
<Meta http-equiv="Page-Exit" Content="revealTrans(duration=x, transition=y)">
Duration 表示滤镜特效的持续时间(单位:秒)
Transition 滤镜类型。表示使用哪一种特效,取值为0-23。
0 矩形缩小
1 矩形扩大
2 圆形缩小
3 圆形扩大
4 下到上刷新
5 上到下刷新
6 左到右刷新
7 右到左刷新
8 竖百叶窗
9 横百叶窗
10 错位横百叶窗
11 错位竖百叶窗
12 点扩散
13 左右到中间刷新
14 中间到左右刷新
15 中间到上下
16 上下到中间
17 右下到左上
18 右上到左下
19 左上到右下
20 左下到右上
21 横条
22 竖条
23 以上22种随机选择一种
九、MSThemeCompatible (XP主题)
说明:是否在IE中关闭 xp 的主题
用法:<Meta http-equiv="MSThemeCompatible" Content="Yes">
注意:关闭 xp 的蓝色立体按钮系统显示样式,从而和win2k 很象。
十、IE6 (页面生成器)
说明:页面生成器generator,是ie6
用法:<Meta http-equiv="IE6" Content="Generator">
注意:用什么东西作的,相似商品出厂厂商。
十一、Content-Script-Type (脚本相关)
说明:这是近来W3C的规范,指明页面中脚本的类型。
用法:<Meta http-equiv="Content-Script-Type" Content="text/javascript">
★NAME变量
name是描述网页的,对应于Content(网页内容),以便于搜索引擎机器人查找、分类(目前几乎全部的搜索引擎都使用网上机器人自动查找meta值来给网页分类)。
name的value值(name="")指定所提供信息的类型。有些值是已经定义好的。例如description(说明)、keyword(关键字)、refresh(刷新)等。还能够指定其余任意值,如:creationdate(建立日期) 、
document ID(文档编号)和level(等级)等。
name的content指定实际内容。如:若是指定level(等级)为value(值),则Content多是beginner(初级)、intermediate(中级)、advanced(高级)。
一、Keywords (关键字)
说明:为搜索引擎提供的关键字列表
用法:<Meta name="Keywords" Content="关键词1,关键词2,关键词3,关键词4,……">
注意:各关键词间用英文逗号“,”隔开。META的一般用处是指定搜索引擎用来提升搜索质量的关键词。当数个META元素提供文档语言从属信息时,搜索引擎会使用lang特性来过滤并经过用户的语言优先参照来显示搜索结果。例如:
<Meta name="Kyewords" Content="vacation,greece,sunshine">
<Meta name="Kyewords" Content="vacances,grè:ce,soleil">
二、Description (简介)
说明:Description用来告诉搜索引擎你的网站主要内容。
用法:<Meta name="Description" Content="你网页的简述">
注意:
三、Robots (机器人向导)
说明:Robots用来告诉搜索机器人哪些页面须要索引,哪些页面不须要索引。Content的参数有all、none、index、noindex、follow、nofollow。默认是all。
用法:<Meta name="Robots" Content="All|None|Index|Noindex|Follow|Nofollow">
注意:许多搜索引擎都经过放出robot/spider搜索来登陆网站,这些robot/spider就要用到meta元素的一些特性来决定怎样登陆。
all:文件将被检索,且页面上的连接能够被查询;
none:文件将不被检索,且页面上的连接不能够被查询;(和 "noindex, no follow" 起相同做用)
index:文件将被检索;(让robot/spider登陆)
follow:页面上的连接能够被查询;
noindex:文件将不被检索,但页面上的连接能够被查询;(不让robot/spider登陆)
nofollow:文件将不被检索,页面上的连接能够被查询。(不让robot/spider顺着此页的链接往下探找)
四、Author (做者)
说明:标注网页的做者或制做组
用法:<Meta name="Author" Content="张三,abc@sina.com">
注意:Content能够是:你或你的制做组的名字,或Email
五、Copyright (版权)
说明:标注版权
用法:<Meta name="Copyright" Content="本页版权归Zerospace全部。All Rights Reserved">
注意:
六、Generator (编辑器)
说明:编辑器的说明
用法:<Meta name="Generator" Content="PCDATA|FrontPage|">
注意:Content="你所用编辑器"
七、revisit-after (重访)
说明:
用法:<META name="revisit-after" CONTENT="7 days" > javascript