爬虫学习(一)

为了从互联网上批量获取数据,研究了下spider,在此记录一笔学习经历。 今天先了解下robots协议,也叫爬虫协议,全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 比如打开 http://www.taobao.com/robots.txt 我们可以看到以下信息,表明淘宝不允许百度抓取/pr
相关文章
相关标签/搜索