robots协议详解

robots协议也就是robots.txt,网站经过robots协议告诉搜索引擎哪些页面能够抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户我的信息和隐私不被侵犯。因其不是命令,故须要搜索引擎自觉遵照。html

先讲一下搜索引擎即咱们俗称的爬虫或蜘蛛的简单工做流程:网站

1 咱们发布的网站,都有一堆url;搜索引擎

2 蜘蛛抓取这些url并解析网页,抽取其中的超级连接;url

3 蜘蛛接着抓取新发现新的网页;code

4 以上循环往复。htm

robots协议就是用来告诉搜索引擎哪些网页页面能够被抓取,哪些网页不能抓取。索引

robots协议的写法规范:图片

User-agent: \* 这里的\*表明的全部的搜索引擎种类,\*是一个通配符

Disallow: /xx/ 禁止抓取xx目录下面的目录

Disallow: /xx/ 这里定义是禁止抓取xx目录下面的目录

Disallow: /xx/ 这里定义是禁止抓取xx目录下面的目录

Disallow: /xx/\*.htm 禁止访问/xx/目录下的全部以".htm"为后缀的URL(包含子目录)。

Disallow: /\*?\* 禁止抓取网站中全部包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页全部的.jpg格式的图片

Disallow:/xx/xx.html 禁止抓取xx文件夹下面的xx.html文件。

Allow: /xx/ 这里定义是容许抓取xx目录下面的目录

Allow: /xx 这里定义是容许抓取xx的整个目录

Allow: .htm$ 仅容许抓取以".htm"为后缀的URL。

Allow: .gif$ 容许抓取网页和gif格式图片

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

用法一:

禁止全部搜索引擎访问网站的任何部分

User-agent: \*

Disallow: /

用法二:

容许全部的robot访问

User-agent: \*

Allow: /
相关文章
相关标签/搜索