爬虫技术的伦理研讨

爬虫技术的伦理研讨

本文根据几篇关于爬虫技术的报道针对如下三个问题进行说明html

1. 爬虫技术涉及到伦理问题有哪些?

2. 做为一个IT技术人员,应怎么看待爬虫技术的使用?

3. 提出本身对爬虫技术在伦理规则方面发展的几点见解。

前两天还有人问我有没有作过python爬虫,说实话,虽然这个技术近几年很火热,但自身并无过多的了解。
该文只简单阐述爬虫技术的原理,让小白也能看懂爬虫技术究竟是什么,以及该项技术所产生的一些伦理问题,值得行业内人员去思考。
首先介绍这项技术,**网络爬虫,是一种按照必定的规则,自动地抓取万维网信息的程序或者脚本。**最初它的出现就是用来解决搜索引擎存在的局限性,使得用户在网页中精确搜索到本身须要的内容以及解决搜索引擎服务器资源与网络数据资源不匹配等问题。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页。传统爬虫从一个或若干初始网页的URL开始,得到初始网页上的URL,在抓取网页的过程当中,不断从当前页面上抽取新的URL放入队列,直到知足系统的必定条件时中止。网络爬虫按照系统结构和实现技术,大体能够分为通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统一般是几种爬虫技术相结合实现的。
一样的,一项技术总会在发展的过程当中产生各类各样的问题,从技术上看网络爬虫所面临的是效率问题即Web 信息的巨大容量使得爬虫在给定时间内只能下载少许网页。 Lawrence 和 Giles 的研究代表没有哪一个搜索引擎可以索引超出 16%的Internet 上 Web 页面,即便可以提取所有页面,也没有足够的空间来存储 。爬虫须要在单位时间内尽量多的获取高质量页面,是它面临的难题之一。为了提升爬行速度,网络一般会采起并行爬行的工做方式,随之引入了新的问题:重复性(并行运行的爬虫或爬行线程同时运行时增长了重复页面)、质量问题(并行运行时,每一个爬虫或爬行线程只能获取部分页面,致使页面质量降低)、通讯带宽代价(并行运行时,各个爬虫或爬行线程之间不可避免要进行一些通讯)。
而从公共社会的层面上看,爬虫技术的应用存在着诸多伦理问题。例如,51信用卡事件,其委托外包催收的公司利用爬虫不正当窃取用户数据、滥用用户信息进行暴利催收。而且有多家大数据公司、征信公司和拥有此类业务的互联网金融公司也作着相同的事情。再如,2019年9月,天翼征信、杭州存信数据、新颜科技、魔蝎科技等多家大数据公司被查,缘由就是利用爬虫技术过分收集、非法窃取和贩卖我的数据信息等。
中消协发布的《APP我的信息泄露状况调查报告》显示,超八成受访者曾遭遇我的信息泄露,主要缘由就是APP经营者未经受权收集我的信息和故意泄露信息。而另一份报告显示,被评测的100款APP中,居然有多达91款的APP存在过分收集用户我的信息的问题,典型方式包括隐蔽收集用户信息、误导用户赞成,强制受权、过分索权,超出用户心理预期获取我的信息,帐号注销困难等。
更让人担心的是,一些细微的隐私信息一旦泄露,形成的危害,可不只仅是多了骚扰电话、推销短信和诈骗电话那么简单。如暴力催收、套路贷、砍头息等也大多与数据隐私泄露有关。所以,我的信息的泄露不只仅会危害我的人身财产安全,甚至会危害公共安全。
即便数据来源合理合规,近年来,在大数据画像的使用过程当中,也出现了一些“伦理问题”,好比“大数据杀熟”“同房不一样价”“看人发红包”等等,都备受争议。本是用来精准服务你的方法,被用来精准地“欺负”你。
因为金融机构和互金平台得到的收益远高于广告行业,所以,为其服务的大数据公司也收入更高,这使得这类数据愈来愈贵。一些中小型银行和金融机构,特别是一些互联网金融公司,自身并无积累足够的用户数据,所以只能经过第三方数据公司提供征信和风控服务,而这些数据公司的数据来源是黑是白,他们也并不想知道。
前面所说到的是企业对广大用户利益的直接影响,威胁着咱们的财产生命安全。除此以外,还存在着企业与企业之间经过爬虫技术得到可能带来商业利益的信息从而构成不正当竞争。好比,蜂窝旅游网经过机器人从携程等竞争对手那里抄袭餐饮酒店评价,制造流量很大的假象,既给用户看、商家看,更要给投资人看,获取不一样轮次的投资以便上市。以及市面上大的互联网公司都会推出本身的刷票软件,目的是为了分享12306网站的‘流量红利’。不只给网站服务器形成巨大压力,也扰乱了正常的订票秩序,由此带来的购票难是铁路部门一直头疼的问题。像这样利用“爬虫”技术从其余平台恶意抓取数据的公司还有不少不少。最终受益者是不怀好意的人,而广大用户都会间接受到利益的损失。
不管是大数据公司有意而为之,仍是他们认为技术本是中立的,不少状况下,爬取得数据并不受控制;或是技术人员也不知,什么样的数据能够获取,什么样的不能,由于技术自己还在不断发展的过程当中,为了达到科技创新的目的,若是国家政策过多的限制,那么科技产业并不会获得很好的发展,这一系列问题,值得全部人的深思,如何在技术与人类安全之间找到一个平衡点,如何用法律去制约,制约的程度须要多大,这都是爬虫技术甚至说新兴技术所隐藏的伦理问题。
做为一个IT技术人员,首先,要知道在运用这项技术的时候,不能作违法违规的事,例如,已明确被告知,不能随意爬取得信息,还要为了谋取私利而为之,必然是违背职业道德操守的行为甚至触犯到了法律。而说到具体制约规范,我国并无像欧洲那样实施“史上最严格”的数据保护条例,由于这样会阻碍创新的风险,在工业时代,做为核心能源的石油因其背后的巨大利益,引起了战争。若是大数据真的是“将来的石油”,巨大的利益面前,仅仅靠法律和规则的禁止,恐怕很难解决所有问题。“只要市场对此的需求存在,即便监管再严格,也总会有人由于利益去铤而走险。”北京大学市场与网络经济研究中心的陈永伟研究员认为,数据隐私归根到底要从技术上入手,技术带来的新问题最终仍是须要用技术来解决。
“好比得到图灵奖的、清华大学姚期智教授的‘多方安全计算(MPC)’,经过技术手段实现既保护用户的数据隐私,又可以得到有价值的数据挖掘。”陈永伟说。
MPC (Secure Multi-Party Computation),是一个名为“多方安全计算”的理论框架,基于此,能够实现数据使用权、全部权的分离,数据全部方能够保有数据,可是又不影响数据需求方提供服务。简单地说,就是基于加密的数据进行计算。
吴沈括说:“事实上,不管是商业模式仍是科技进步,既是我的信息的加害者,也是我的信息的保护者。所以,咱们能够经过鼓励企业创新,积极开拓区块链、多方安全计算等新的技术架构,达成我的信息保护与数据利用的动态平衡。”。
实际上,针对数据隐私的立法在全球已经造成潮流,日本、韩国、印度、巴西、俄罗斯等国都设立了相似于欧洲GDPR的隐私保护法,美国各州也已经陆续在落地隐私保护的法规,至于中国,需不须要也给企业也套上一道“紧箍咒”?
实际上,关于信息安全的规范等一系列与数据隐私安全有关的法律法规推出并在普遍征求意见。为切实保障数据的隐私安全,收集使用相关数据时须要遵循合法、正当、必要的原则。
吴沈括说:“一是收集的数据必须是合法的,要公示收集规则,经用户赞成;二是收集数据应遵照道德伦理底线,确保使用数据行为的正当性,不该强迫用户受权,或者以默认受权、捆绑服务、强制中止使用等不正当手段变相诱导、胁迫用户提供相关数据;三是收集必要的、最小化的数据。”。
吴映京还表示,数据利用的“度”必定是须要政府、企业和民众共同去摸索实践的,由于目前并不能说哪一个制度就必定是最优的,关键在于明确好社会、企业和用户在隐私保护中的责任,平衡好三者之间的利益。对于数据“发掘”过程当中可能带来的问题保持动态的态度和审慎的精神,可是不要制造非此即彼的对立情绪,而是应该以制度、教育甚至进一步的科技发展积极地解决这些问题。
而我也认为,爬虫技术要长远的发展下去,解决以上出现的道德伦理问题是刻不容缓的事情,要从多个角度去切入,不管是从技术人员自身仍是管理者,以致于整个企业都应加以重视。对于技术人员的来讲,能够经过反爬虫技术遏制利用爬虫技术进行的违法犯罪活动,而且不该有利用此技术谋取私利作越界,违反道德伦理的事情。
中国人民大学法学院教授刘俊海表示:“一个技术如何使用,责任主体都应扪心自问,这是否侵犯我的隐私,是否破坏言论自由,是否损害公共利益,是否损害其余数据财产拥有者的财产全部权,是否涉及不正当竞争。”
  有业内人士表示,虽然网络安全法对非法获取我的信息等相关行为进行了规定,但对于爬取公开信息行为并未予以规定。相关部门应进一步查漏补缺,尽快缩小新技术应用的法律模糊地带。而目前国内尚未全面的规定,要从根源上解决这类问题,仍是要从立法层面入手。
  专家认为,未经对方容许从其余平台抓取数据并谋取商业利益的通常属于不正当竞争行为,由工商部门负责监管。可是由于这类行为一般比较隐蔽,工商部门通常须要有人举报并提供相应证据或线索后启动调查,所以须要借助技术手段更有效地进行打击。
  因此网络运营者应当诚信经营、遵循合法、正当、必要的原则,尽到网络运营者的管理义务。第三方应用开发者在收集、使用我的数据信息时,应当遵循诚实信用的原则及公认的商业道德。
  最后,做为普通用户,咱们一样不能由于小恩小惠,而把本身的信息随意透漏给一些平台,让不法分子有可乘之机。
  若是从各个方面进行改善,不管是如今的爬虫技术,仍是未来出现的新技术,都能走得更好更远。python

转载:

https://www.huxiu.com/article/324162.html
https://www.sohu.com/a/336165079_114988
http://www.xinhuanet.com/mrdx/2018-11/02/c_137576140.htm
https://baijiahao.baidu.com/s?id=1653174048544025196%ED%94%B4=spider&for=pc
https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fromtitle=%E7%88%AC%E8%99%AB&fromid=22046949&fr=aladdinweb