如何告诉搜索引擎不要来收录站点的页面 meta robots.txt

时间 2019-12-06

标签如何告诉搜索引擎不要收录站点页面 meta robots.txt robots txt 栏目搜索引擎繁體版

原文原文链接

原本想要整理下搜索引擎收录的原理的，可是发现好像理解的还不是很透彻，起了几个草稿，都没有能完成，那就换个角度，通常你们都知道网站上线了以后，网站的内容就有可能会被用户搜索出来，会出如今搜索结果页上面，用户就能经过连接进去访问站点了。这样站点的浏览就会上去；javascript

可是，某天，给站点添加了一个用户登陆功能，用户能够在网站上面进行一些我的信息的展现以及修改，那么，这部分的页面内容实际上是不但愿被搜索引擎收录的，由于可能会形成用户信息的泄露。那么是否有办法能够告诉搜索引擎不要来收录某些内容页面呢？html

答案确定是有的，虽然不作任何的设置，你的网站也会被收录，可是，我不想被收录也是能够的。目前了解到的方法有2种，先记录下：java

设置meta标签，看了一些seo相关的内容以后才发现，原来meta标签真的好强大；
网络上存在一种约定，就是在站点的根目录下建立一个 robots.txt 文件。

使用 `<meta name="robots" content=''>`

能够在页面上添加 <meta name="robots" content=''> 来告诉网络爬虫，本页面是否容许被收录，这个设置缺点就是，每一个页面都要设置。它的值有如下这些，能够根据实际状况自由搭配，能够添加多个的；不过，也有浏览器兼容问题；浏览器

meta robots 标签是不区分大小写的。（其实全部的meta标签也是不区分大小写的）服务器

根据上图，会发现有容许和不容许的设置，其实这个我的感受容许的设置实际上是没有效果的，由于不设置<meta name="robots" content=''>的状况下就是容许，因此，能够这样理解，这个标签只有在想要禁止索引的状况下才会有意义；网络

还有一个须要注意的细节，就是，设置这个标签以后，搜索引擎是怎么识别出来，其实，设置了<meta name="robots" content=''>以后，并非说搜索引擎就彻底不进来对应的页面了，只是说，搜索引擎不对该页面的内容进行收录操做，可是，是会进行抓取操做的。网站

怎么理解上面的话？其实就是说，搜索引擎要把网页的内容收录到它的引擎中，其实前面还有不少个步骤的，那设置了<meta name="robots" content=''>以后，其实第一步的抓取仍是会进行的，只是在抓取的时候，设置了<meta name="robots" content=''>，那么搜索引擎就会按照这个标签的属性进行不一样的后续操做。搜索引擎

使用 `robots.txt` 文件

robots.txt 是放在站点根目录的一个文件，里面定义了哪些路由是容许站点爬虫收录的，哪些是不容许的，可是，robots.txt文件的设置，其实并非一种规范，只是一种网络约定，因此，若是不友好的网络爬虫没有按照规范，先访问robots.txt，那么，站点的内容同仍是会被搜索引擎收录的。注意：robots.txt文件名不要拼写错误，且必须都是小写。spa

robots.txt 文件中经常使用的参数有code

User-agent => 定义下面的规则对于哪些搜索引擎生效；
Disallow => 指定哪些目录或文件类型是不想被检索（抓取）的；
Allow => 指定哪些目录或文科类型是能够被检索（抓取）的；
Sitemap => 指定站点内的sitemap文件位置，须要绝对位置；
复制代码

根据上面的参数，结合站点的须要，能够直接配置，那么配置结束以后是否能够直接上传到服务器？这样是一个危险的操做，虽然robots.txt 文件对于提高站点的SEO，做用并非十分的大，可是要是配置有误，那么可能会形成搜索引擎再也不来收录站点，这会形成比较大的影响的。

因此仍是颇有必要检查下 robots.txt 文件的语法。目前能够帮忙检测的地方在Google Search Console 里面，须要先认证站点，而后把配置贴入，便可检 robots.txt 编写是否有误；

按照语法，在这个文件中配置好哪些是但愿被搜索引擎收录的，哪些是不但愿被收录的，这样配置好以后，当有网络爬虫来爬去站点内容时，会先访问

如何告诉搜索引擎不要来收录站点的页面 meta robots.txt

使用 <meta name="robots" content=''>

使用 robots.txt 文件

参考资料 (一不当心有帮助别站提升了seo，嘻嘻)

使用 `<meta name="robots" content=''>`

使用 `robots.txt` 文件