网络爬虫引起的问题及robots协议

时间 2019-11-16

标签网络爬虫引起问题 robots 协议栏目系统网络繁體版

原文原文链接

一.网络爬虫的尺寸html

1.以爬取网页，玩转网页为目的进行小规模，数据量小对爬取速度不敏感的可使用request库实现功能（占90%）web

2.以爬取网站或爬取系列网站为目的，好比说获取一个或多个旅游网站的爬虫，对数据要求规模较大，爬取速度敏感的可使用Scrapy库浏览器

3.以爬取全网为目的，规模很大搜索引擎爬取速度关键，须要定制开发服务器

二.网络爬虫带来的问题网络

总的来讲有：骚扰问题,法律风险，隐私泄露ide

1.爬虫可利用计算机的快速功能访问服务器，它会比人类的速度快到百倍甚至千倍，受限于编写水平和目的，网络爬虫将会为web服务器带来巨大的资源开销。对网站运行者来说，爬虫造成了骚扰。网站

2.网络爬虫会带来法律风险。服务器上的数据有产权归属，好比新浪上的新闻规新浪全部，若是网络爬虫获取数据牟利后将会带来法律风险。ui

3.网络爬虫会形成隐私泄露。网络爬虫可能具有突破简单访问控制的能力，或得被保护数据从而泄露我的隐私。搜索引擎

三.网络爬虫的限制htm

来源审查:判断User-Agent进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。

发布公告: Robots协议

告知全部爬虫网站的爬取策略，要求爬虫遵照。

四.Robots协议

做用：网站会告知网络爬虫哪些页面能够抓取，哪些不行

形式：在网站根目录下的robots.txt文件。

下面我本身作了一个实例打开京东的Robots协议 https://www.jd.com/robots.txt

会出现下面几句话

大概的意思是全部爬虫都要遵照如下协定

任何爬虫都不容许访问?* 即?号开头的网页

任何爬虫都不容许访问pop*.html开头的网页

任何爬虫都不容许访问pinpai*.html开头的网页

此外 EtaoSpider HuihuiSpidder GwdangSpider WochachaSpider这四个网络爬虫都不能爬取京东的任何数据

五.Robots协议基本语法

*表明全部 /表明根目录

User-agent: 表明哪些爬虫

Disallow:你不容许访问资源的目录

六.其余注意

1.Robots协议必定放在网站根目录下

2.http：//www.news.sina.com.cn/robots.txt和http：//www.sina.com.cn/robots.txt它们的Robots协议是不同的

3.若是一个网站没有Robots协议，是容许全部爬虫无限制爬取