爬虫学习（一）

时间 2021-01-22

原文原文链接

为了从互联网上批量获取数据，研究了下spider，在此记录一笔学习经历。今天先了解下robots协议，也叫爬虫协议，全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。比如打开 http://www.taobao.com/robots.txt 我们可以看到以下信息，表明淘宝不允许百度抓取/pr

>>阅读原文<<