robots.txt的位置:项目路径WebRoot根目录下。php
验证方式:访问项目地址/robots.txtcss
一、若是容许全部搜索引擎访问网站的全部部分的话:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /html
二、若是咱们禁止全部搜索引擎访问网站的全部部分的话:ide
User-agent: *
Disallow: /网站
三、若是咱们禁止Google索引咱们的网站的话:搜索引擎
User-agent: Googlebot
Disallow: /url
四、若是咱们禁止除Google外的一切搜索引擎索引咱们的网站话:htm
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /索引
五、若是咱们须要禁止蜘蛛访问某个目录,好比禁止admin、css、images等目录被索引的话:图片
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
六、咱们看某些网站的robots.txt里的Disallow或者Allow里会看不少的符号,好比问号星号什么的,若是使用“*”,主要是限制访问某个后缀的域名,禁止访问/html/目录下的全部以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /html/*.htm
10若是咱们使用“$”的话是仅容许访问某目录下某个后缀的文件
robots.txt写法以下:
User-agent: *
Allow: .asp$
Disallow: /
七、若是咱们禁止百度搜索引擎抓取咱们网站上的全部图片的话:
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
八、除了百度以外和Google以外,禁止其余搜索引擎抓取你网站的图片:
User-agent: Baiduspider
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: Googlebot
Allow: .jpeg$
Allow: .gif$
Allow: .png$
Allow: .bmp$
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
九、仅仅容许百度抓取网站上的“JPG”格式文件:
User-agent: Baiduspider
Allow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
十、若是咱们想禁止搜索引擎对一些目录或者某些URL访问的话,能够截取部分的名字:
User-agent:*
Disallow: /plus/feedback.php?