robots.txt 文件由一条或多条规则组成。每条规则可禁止(或容许)特定抓取工具抓取相应网站中的指定文件路径。bash
通俗一点的说法就是:告诉爬虫,我这个网站,你哪些能看,哪些不能看的一个协议。工具
搜索引擎(爬虫),访问一个网站,首先要查看当前网站根目录下的robots.txt,而后依据里面的规则,进行网站页面的爬取。 也就是说,robots.txt起到一个基调的做用,也能够说是爬虫爬取当前网站的一个行为准则。优化
那使用robots.txt的目的,就很明确了。网站
栗子以下:搜索引擎
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: http://www.wangxiaokai.vip/sitemap.xml
复制代码
解析:google
名为“Googlebot”抓取工具的用户代理不该抓取 http://wangxiaokai.vip/nogooglebot/ 文件夹或任何子目录。 全部其余用户代理都可访问整个网站。(不指定这条规则也无妨,结果是同样的,由于彻底访问权限是系统默认的前提。) 网站的站点地图文件位于 http://www.wangxiaokai.vip/sitemap.xml
spa
必须位于它所应用到的网站主机的根目录下代理
网页抓取工具的名称
不该抓取的目录或网页
应抓取的目录或网页
网站的站点地图的位置
百度网盘的资源,到博文编写时间为止,已经不能用经常使用的搜索技巧site:pan.baidu.com 搜索关键字
的方式,在baidu.com
|google.com
|biying.com(国际版还能够勉强搜索到)
去搜索对应的资源。 禁止的方式,很大程度上是依靠robots.txt
,而不是请去喝茶😆。code
如下是访问 http://pan.baidu.com/robots.txt
获得的规则:cdn
能够看到,百度网盘封杀了全部资源文件入口。 最狠的是最后一句:
User-agent: *
Disallow: /
复制代码
我只想说有资源真的能够随心所欲😂
喜欢我文章的朋友,扫描如下二维码,浏览个人我的技术博客
或点击连接王先生的基地