爬虫到底是合法仍是违法的?

听说互联网上 50%以上的流量都是爬虫创造的,也许你看到不少热门数据都是爬虫所创造的,因此能够说无爬虫就无互联网的繁荣。html

前天写了一篇文章《 只因写了一段爬虫,公司200多人被抓!》,讲述程序员因写爬虫而被刑侦的事件。文章传播很广,评论中讨论最热是:爬虫到底是合法仍是违法的?程序员

这个话题涉及到咱们不少程序员的平常工做,因此有必要和你们细聊一下。安全

01.技术无罪?

不少朋友给我留言:技术是无罪的,技术自己确实是没有对错的,但使用技术的人是有对错的,公司或者程序员若是明知使用其技术是非法的,那么公司或者人就须要为之付出代价。服务器

在今年国家颁布《中华人民共和国网络安全法》以后,不少之前处于灰色地带的业务都不能作了。网络

君不见以前曾经很是火的各类社工库网站,如今绝大部分都已经消失匿迹了吗?由于最新的安全法强调:贩卖我的信息超过50条属于“情节严重”,须要追求其法律责任。大数据

不少草根站长都纷纷主动关闭了网站;还有不少涉及版权信息的网站,好比书籍、影视剧、课程等后期也会面临愈来愈严格的审查,这就是目前大的形势。网站

2014年12月20日,人人影视字幕站发布微博称,人人影视正式关闭,并表示或将继续为正版商提供翻译服务,也可能转变为讨论社区的形式。搜索引擎

2019年6月,吾爱破解因版权问题关站整改...
.....编码

随着中国经济的不断往前走,知识产权问题会愈来愈重视,非法爬虫是如今一个重要的打击部分,翻译

若是有程序员走在灰色的边缘尽早收手,不要由于一点小的收益致使触犯法律,从而得不偿失。

技术是无罪的,可是用到了错的地方代价也是很是巨大的。

02.爬虫岗位人人自危

我在拉钩上搜索: 爬虫工程师,显示有 217 条相关招聘信息,薪资从10-60k 都有,说明市场上对爬虫的需求是很大的。

前天文章发出去以后有不少程序员给我留言:

  • 咱们领导安排我爬取公司内部的信息,这算不算犯罪呢?
  • 爬取网上公开的信息,这算不算犯罪呢?
  • 写了一段代码上传到 Github,被人用了犯法吗?

简单回答一下这些问题:

  • 1.爬取公司内部信息有公司受权固然不算犯罪的,可是公司内部不用接口而用爬虫不知道是为何?

  • 2.爬取网上公开信息不犯法,但若是大量开启爬虫致使对方服务器崩溃也是违法的,这属于暴力攻击的范畴了。

  • 3.写了一段代码上传到 Github 上面,有人利用你的代码作了其它非法的事情,绝大多数都没有问题的,但若是你写的软件涉及到入侵、暴力破解、病毒等就很差说了。

还有朋友认为这事责任在企业不在程序员,平常工做中项目初期设计和最后上线须要经过公司的法务批准,全部代码必须有其余程序员同事评审经过才能提交。

这位朋友说的挺对的,按道理每一个公司都应该有法务和风控在前面,后面才是产品设计和程序员开发的事情,但若是一家公司为了利益,老板能够直接让这两个部门闭嘴,后面程序员能够不干嘛?

更甚至不少公司其实就没有这两个部门或者说形同虚设。那么作为程序员本身也须要操一份心,凡是涉及到入侵类的程序都不能干,由于有一个东西叫作:单位犯罪

单位犯罪,是指公司、企业、事业单位、机关、团体为单位谋取利益,经单位决策机构或者负责人决定实施的,法律规定应当负刑事责任的危害社会的行为。

我国刑法对单位犯罪原则上采起双罚制度,即单位犯罪的,对单位判处罚金,并对其直接负责的主管人员和其余直接责任人员判处刑罚。

03.什么样的爬虫是非法的?

爬虫不能涉及我的隐私!

若是爬虫程序采集到公民的姓名、身份证件号码、通讯通信联系方式、住址、帐号密码、财产情况、行踪轨迹等我的信息,并将之用于非法途径的,则确定构成非法获取公民我的信息的违法行为。

也就是说你爬虫爬取信息没有问题,但不能涉及到我的的隐私问题,若是涉及了而且经过非法途径收益了,那确定是违法行为。

另外,还有下列三种状况,爬虫有可能违法,严重的甚至构成犯罪:

  • 1.爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。

  • 2.爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”

  • 3.爬虫采集的信息属于公民我的信息的,有可能构成非法获取公民我的信息的违法行为,情节严重的,有可能构成“侵犯公民我的信息罪”。

如今网上有不少付费的课程,好比极客时间、Gitchat、慕课网、知识星球等等,这些付费内部信息若是被非法爬取手法出售获利,一种违法行为。

以前我就遇到一个网友,把各个知识星球的内容都抓下来,合到一块儿本身去卖,自做聪明以为发现了一个大的商机,其实本身不知道这个行为其实很危险,风险和收益明显不对等。

我这两天看的时候,他的一个公众号都被封了,后来又转移了一个小号继续搞,早晚又是被封的命运,真的很不值当。最可怜是那些买他服务的用户,由于他宣传时承诺永久,确定永久不了。

04.什么样的爬虫是合法的?

一、 遵照 Robots 协议

Robots 协议也叫 robots.txt(统一小写)是一种存放于网站根目录下的 ASCII 编码的文本文件,它一般告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不该被搜索引擎的漫游器获取的,哪些是能够被漫游器获取的。

Robots 协议就是告诉爬虫,哪些信息是能够爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息通常不会出现太大问题。

二、不能形成对方服务器瘫痪

但不是说只要遵照 Robots 协议的爬虫就没有问题,还涉及到两个因素,第一不能大规模爬虫致使对方服务器瘫痪,这等于网络攻击。

2019年05月28日国家网信办发布的《数据安全管理办法(征求意见稿)》中,拟经过行政法规的形式,对爬虫的使用进行限制:

网络运营者采起自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求中止自动化访问收集时,应当中止。

三、不能非法获利

恶意利用爬虫技术抓取数据,攫取不正当竞争的优点,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并很多,大可能是以不正当竞争为由提请诉讼。

举个例子,若是你把大众点评上的全部公开信息都抓取了下来,本身复制了一个如出一辙的网站,而且还经过这个网站获取了大量的利润,这样也是有问题的。

通常状况下,爬虫都是为了企业获利的,所以须要爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。

05.最后

最近看了不少关于程序员出事的事件,东南亚程序员被打,多个大数据公司被查等等。作为一名普通的程序员,但愿你们也能够多关注此类事件,从而提醒本身。

有风险的行业谨慎进入,好比现金贷、不合规的P2P、赌博类游戏、黑五类产品的行业。若是公司安排入侵某个网站数据,或者有同事/朋友邀请泄露公司信息的都须要保持警戒,有时候一个很小的动做都有可能致使出问题。

咱们绝大多数公司和我的使用的爬虫都是没有问题的,没必要人人自危,只要把握住不要爬取我的信息,不要利用爬虫非法获利,不要爬取网站的付费内容,基本上不会有问题。

程序员是世界上最单纯的一批人,也是一批高智商低情商的人,工做是工做但也须要适当保持谨慎,对于一些游走在法律边缘的事情请保持距离。

敬畏法律,遵纪守法,从我作起。

参考:
https://www.zhihu.com/question/291554395

相关文章
相关标签/搜索