SEO优化-robots.txt解读

时间 2019-11-17

标签 seo 优化 robots.txt robots txt 解读栏目网站开发繁體版

原文原文链接

1、什么是robots.txt

robots.txt 文件由一条或多条规则组成。每条规则可禁止（或容许）特定抓取工具抓取相应网站中的指定文件路径。bash

通俗一点的说法就是：告诉爬虫，我这个网站，你哪些能看，哪些不能看的一个协议。工具

2、为何要使用robots.txt

搜索引擎（爬虫），访问一个网站，首先要查看当前网站根目录下的robots.txt，而后依据里面的规则，进行网站页面的爬取。也就是说，robots.txt起到一个基调的做用，也能够说是爬虫爬取当前网站的一个行为准则。优化

那使用robots.txt的目的，就很明确了。网站

更好地作定向SEO优化，重点曝光有价值的连接给爬虫
将敏感文件保护起来，避免爬虫爬取收录

3、robots.txt的示例

栗子以下：搜索引擎

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.wangxiaokai.vip/sitemap.xml
复制代码

解析：google

名为“Googlebot”抓取工具的用户代理不该抓取 http://wangxiaokai.vip/nogooglebot/ 文件夹或任何子目录。全部其余用户代理都可访问整个网站。（不指定这条规则也无妨，结果是同样的，由于彻底访问权限是系统默认的前提。）网站的站点地图文件位于 http://www.wangxiaokai.vip/sitemap.xmlspa

4、文件规范

一、文件格式和命名

文件格式为标准 ASCII 或 UTF-8
文件必须命名为 robots.txt
只能有 1 个 robots.txt 文件

二、文件位置

必须位于它所应用到的网站主机的根目录下代理

三、经常使用的关键字

User-agent 网页抓取工具的名称
Disallow 不该抓取的目录或网页
Allow 应抓取的目录或网页
Sitemap 网站的站点地图的位置

5、百度网盘的应用

百度网盘的资源，到博文编写时间为止，已经不能用经常使用的搜索技巧site:pan.baidu.com 搜索关键字的方式，在baidu.com|google.com|biying.com（国际版还能够勉强搜索到）去搜索对应的资源。禁止的方式，很大程度上是依靠robots.txt，而不是请去喝茶😆。code

如下是访问 http://pan.baidu.com/robots.txt 获得的规则：cdn

能够看到，百度网盘封杀了全部资源文件入口。最狠的是最后一句：

User-agent: *
Disallow: /
复制代码

我只想说有资源真的能够随心所欲😂

喜欢我文章的朋友，扫描如下二维码，浏览个人我的技术博客
或点击连接王先生的基地