如何告诉搜索引擎不要来收录站点的页面 meta robots.txt

原本想要整理下搜索引擎收录的原理的,可是发现好像理解的还不是很透彻,起了几个草稿,都没有能完成,那就换个角度,通常你们都知道网站上线了以后,网站的内容就有可能会被用户搜索出来,会出如今搜索结果页上面,用户就能经过连接进去访问站点了。这样站点的浏览就会上去;javascript

可是,某天,给站点添加了一个用户登陆功能,用户能够在网站上面进行一些我的信息的展现以及修改,那么,这部分的页面内容实际上是不但愿被搜索引擎收录的,由于可能会形成用户信息的泄露。那么是否有办法能够告诉搜索引擎不要来收录某些内容页面呢?html

答案确定是有的,虽然不作任何的设置,你的网站也会被收录,可是,我不想被收录也是能够的。目前了解到的方法有2种,先记录下:java

  1. 设置meta标签,看了一些seo相关的内容以后才发现,原来meta标签真的好强大;
  2. 网络上存在一种约定,就是在站点的根目录下建立一个 robots.txt 文件。

使用 <meta name="robots" content=''>

能够在页面上添加 <meta name="robots" content=''> 来告诉网络爬虫,本页面是否容许被收录,这个设置缺点就是,每一个页面都要设置。它的值有如下这些,能够根据实际状况自由搭配,能够添加多个的;不过,也有浏览器兼容问题;浏览器

meta robots 标签是不区分大小写的。(其实全部的meta标签也是不区分大小写的)服务器

根据上图,会发现有容许不容许的设置,其实这个我的感受容许的设置实际上是没有效果的,由于不设置<meta name="robots" content=''>的状况下就是容许,因此,能够这样理解,这个标签只有在想要禁止索引的状况下才会有意义;网络

还有一个须要注意的细节,就是,设置这个标签以后,搜索引擎是怎么识别出来,其实,设置了<meta name="robots" content=''>以后,并非说搜索引擎就彻底不进来对应的页面了,只是说,搜索引擎不对该页面的内容进行 收录 操做,可是,是会进行 抓取 操做的。网站

怎么理解上面的话?其实就是说,搜索引擎要把网页的内容收录到它的引擎中,其实前面还有不少个步骤的,那设置了<meta name="robots" content=''>以后,其实第一步的抓取仍是会进行的,只是在抓取的时候,设置了<meta name="robots" content=''>,那么搜索引擎就会按照这个标签的属性进行不一样的后续操做。搜索引擎

使用 robots.txt 文件

robots.txt 是放在站点根目录的一个文件,里面定义了哪些路由是容许站点爬虫收录的,哪些是不容许的,可是,robots.txt文件的设置,其实并非一种规范,只是一种网络约定,因此,若是不友好的网络爬虫没有按照规范,先访问robots.txt,那么,站点的内容同仍是会被搜索引擎收录的。注意:robots.txt文件名不要拼写错误,且必须都是小写。spa

robots.txt 文件中经常使用的参数有code

User-agent => 定义下面的规则对于哪些搜索引擎生效;
Disallow => 指定哪些目录或文件类型是不想被检索(抓取)的;
Allow => 指定哪些目录或文科类型是能够被检索(抓取)的;
Sitemap => 指定站点内的sitemap文件位置,须要绝对位置;
复制代码

根据上面的参数,结合站点的须要,能够直接配置,那么配置结束以后是否能够直接上传到服务器?这样是一个危险的操做,虽然robots.txt 文件对于提高站点的SEO,做用并非十分的大,可是要是配置有误,那么可能会形成搜索引擎再也不来收录站点,这会形成比较大的影响的。

因此仍是颇有必要检查下 robots.txt 文件的语法。目前能够帮忙检测的地方在Google Search Console 里面,须要先认证站点,而后把配置贴入,便可检 robots.txt 编写是否有误;

按照语法,在这个文件中配置好哪些是但愿被搜索引擎收录的,哪些是不但愿被收录的,这样配置好以后,当有网络爬虫来爬去站点内容时,会先访问

参考资料 (一不当心有帮助别站提升了seo,嘻嘻)

相关文章
相关标签/搜索