网络爬虫 Robots协议

Robots协议 Robots Exclusion Standard 网络爬虫排除标准 作用:告知网络爬虫哪些可以爬取,哪些不可以 形式:在网站根目录下的robots.txt文件 例如京东的网站: Robots协议基本语法: #注释  *代表所有  \代表根目录 User-agent: * Disallow: / Robots协议的使用 网络爬虫:自动或人工的识别robots.txt,在进行内容爬
相关文章
相关标签/搜索