robots.txt 简单解析

时间 2019-11-09

标签 robots.txt robots txt 简单解析繁體版

原文原文链接

简介

robots.txt 是一个规范，对于执行正常操做的爬虫理应遵照的规范.html

例子

博客园例子

https://www.cnblogs.com/robots.txtide

User-Agent: *
Allow: /

容许全部爬虫爬取网站任何地址。网站

百度例子

User-agent: Baiduspider # 百度本身的爬虫
Disallow: /baidu # 不容许本身的爬虫爬取百度的站点 https://www.baidu.com/baidu.html
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/ # /home/news/data/目录的全部内容code

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/htm

参考连接

百度站长管理blog

1. robots.txt
2. robots.txt 是什么？
3. UINavigationBar简单解析
4. 简单解析URL
5. Html 简单解析
6. LinkedHashMap简单解析
7. SEO优化-robots.txt解读
8. robots.txt文件格式详解
9. 简单SAX解析详解
10. robots.txt文件
更多相关文章...
• XML DOM 解析器 - XML DOM 教程
• TCP报文格式解析 - TCP/IP教程
• Github 简明教程
• Git可视化极简易教程 — Git GUI使用方法