一文带你了解爬虫

前段时间我妈忽然问我:儿子,爬虫是什么?我当时既惊讶又尴尬,惊讶的是为何我妈会对爬虫好奇?尴尬的是我该怎么给她解释呢?
python

1、爬虫介绍

1.爬虫是什么

网络爬虫(web crawler 简称爬虫)就是按照必定规则从互联网上抓取信息的程序,既然是程序那和正经常使用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢、少许的获取信息,而爬虫是大量的获取信息。
图片web

这里还须要注意的是:爬虫并非Python语言的专利,Java、Js、C、PHP、Shell、Ruby等等语言均可以实现,那为何Python爬虫会这么火?我以为相比其余语言作爬虫Python可能就是各类库完善点、上手简单你们都在用,社区天然活跃,而社区活跃促成Python爬虫慢慢变成熟,成熟又促使更多用户来使用,如此良性循环,因此Python爬虫相比其余语言的爬虫才更火。sql

下面就是一段hello world级别的Python爬虫,它等效于你在百度搜索关键字:python编程

图片

2.爬虫案例

既然爬虫是大量抓取网页,那是否是爬虫都是很差的呢?答案固然不是,能够说咱们的平常上网已经离不开爬虫了,为何这么说?下面我就为你们盘点几个爬虫平常应用:服务器

  1. 搜索引擎:如Google、百度、雅虎、搜狗、必应等等不少搜索引擎其本质就是一个(可能多个)巨大爬虫,这些搜索引擎工做原理是:页面收录->页面分析->页面排序->响应关键字查询,也就是说它会先把互联网上不少页面保存到服务器,而后分析网页内容创建关键字索引,最后用户输入关键字的时候去查询内容,而后根据相关性排序(百度害人的竞价排名毫无相关性可言),第一步的页面收录就是爬虫,百度查看一个网站有多少网页被收录方法,百度输入:site:你想查询的网站,如:site:blog.csdn.net。网络

    图片

  2. 抢票软件:不少人在吐槽12306卡,可你不知道12306几乎天天都至关于淘宝双11的流量,这谁受得了。为何天天都是如此高的流量?答案天然是爬虫了,为何抢票软件能够抢票?由于它在不断的刷新和监控是否有余票,大大小小这么多抢票app,访问量之高可想而知。以前不少公司都出过抢票插件,如:百度、360、金山、搜狗等等,后来都被铁道部约谈下线了,而如今又流行抢票app,为何抢票app能够,插件就不能够?多是由于管理和可控性的缘由。app

  3. 惠惠购物助手:这是一款能进行多个网站比价并能知道最低价的一个网站,其工做原理也是经过大量爬虫爬取商品价格而后存储,这样就能够制做一个价格走势图,帮助你了解商品最低价。框架

2、爬虫的价值

从上面举的几个例子来看,爬虫对整个互联网的价值真的没法估量,那对于小我而言,爬虫能给咱们带来哪些价值?机器学习

1.隐形的翅膀

若是你问我学完Python基础以后该学习什么技能?我会绝不犹疑的说爬虫,为何是爬虫?ide

  1. 爬虫相对其余技能简单易学,且效果当即可见,会有必定的成就感

  2. 爬虫能够说是其余技能的基石,由于他是数据的来源,如今这个时代谁有数据谁才能称王,因此会爬虫绝对会让你如虎添翼

  3. 在国内,不少企业恨不得你啥都会,因此在应聘时,爬虫会是一个不错的加分项

2.看不见的商战

职场对话:

老板:小明给你个重要任务。
小明:就算996我也在所不辞(第一次接到老板的直接需求)!
老板:你能不能搞到竞争对手的商品价格?
小明:没问题(牛逼先吹出去),小事!
老板:这可不是小事,只要你能持续获取竞品价格,咱们就能够标价低于他们一点点,持续如此你们就知道咱们的价格确定是比他们低,这样你们就直接来咱们这里购买商品了,到时候庆功宴上你就是最大功臣(先画个饼)。
小明:老板牛逼,老板英明!

3.会爬虫就能够创业

工做以后不少同窗会利用上班空余时间,来作本身的东西或者项目,别看开始是一个小打小闹的东西,慢慢丰富未来也许会成为一款成熟的产品。

而爬虫可让你很轻松的实现本身的产品,作的好的话就能够创业。这里猪哥给你们列几个简单的创业项目,固然做为一个思惟引导。

若是你想作一款好的产品,你须要从用户需求出发去思考,作解决目前存在的问题的产品或者目前尚未的服务,也许你的产品就是下一个头条。

3、盗亦有道

爬虫既然如此强大而优秀,那是否是会了爬虫就能够随心所欲?

延伸话题:其实我心里一直有一个疑问:为何互联网公司都偏心用动植物来命名或做为logo?如:蚂蚁金服、天猫、菜鸟、金东狗、腾讯企鹅,百度的熊掌、搜狗、途牛、美团的袋鼠。。。真的是太多了,难道仅仅是由于好记?我认为好记是一个缘由,其根本缘由是受到编程行业的影响,你想一想编程行业有多少动植物:Java(咖啡)、Python(蟒蛇)、Go(囊地鼠)、PHP(大象)、Linux(企鹅)、Perl(骆驼)、Mysql(海豚)等等,具体为何编程行业喜欢用动植物这猪哥就不清楚,还请明白的同窗留言告知你们!

讲上面的延伸话题想表达的是,大天然世间万物,相生相克,衡而不祸!而爬虫也是如此,下面就为你们介绍一下约束爬虫的几个点。

1.robots协议

作过网站的同窗也许知道,咱们在建站的时候须要在网站根目录下放一个文件:robots.txt,这个文件是干什么用的呢?

Robots协议,也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(Robots Exclusion Protocol)”。网站经过Robots协议告诉搜索引擎哪些页面能够抓取,哪些页面不能抓取。

每一个网站的根目录下都必须放置robots.txt文件,不然搜索引擎将不收录网站任何网页。

下面咱们以百度为例子,来看看百度的robots.txt文件:

咱们在百度robots协议的最下面,有这样一条:

User-agent: *
Disallow: /

这表示除上面那些定义过的爬虫之外其余爬虫都不容许爬取百度任何东西!

2.法律

咱们都知道在发起请求时User-agent是能够自定义的,也就是说咱们能够绕过robots协议和以User-agent来定义的反爬虫技术,因此robots协议可能更像一个君子协议,那我们国家有没有法律明文规定呢?咱们来了解一下非法侵入计算机信息系统罪

第二百八十五条 非法侵入计算机信息系统罪:违反国家规定,侵入前款规定之外的计算机信息系统或者采用其余技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年如下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年如下有期徒刑,并处罚金。

咱们能够看到重点信息:***计算机获取数据是违法的,也就是说爬虫技术自己是无罪的,由于它是获取的公开信息,并未非法***计算机。可是若是你用爬取到的数据去从事商业化操做,那也许就构成了违法犯罪行为!


给你们介绍下因爬虫而被判刑的案件:

  1. 头条爬虫官司:https://dwz.cn/qBBHc2fq

  2. 酷米客公司官司:https://dwz.cn/9IpAOHGB

  3. 360和百度爬虫官司:https://dwz.cn/RGRa3HJc


我发现这几起案件的通性有两点:一、公司性质。二、竞争对手。三、被人家找到线索。


最后提醒你们:技术人,要守住本身的底线,违反国家法律法规的事情我们坚定不能作!

3.反爬虫工程师

原本想采访一位携程反爬虫工程师,可是他说因为工做保密缘由不便接受采访,因此只好尊重他的决定,在这里也给你们说声抱歉!

4、爬虫现状

以前猪哥说过互联网中有超过50%的流量来自爬虫,那咱们就来简单聊聊目前爬虫的现状吧!

1.技术

反爬虫几乎和爬虫同时诞生,它们是相爱相杀的连个技术,若是没有爬虫就没有反扒,而反扒技术又反过来又能够促进爬虫技术的发展。

  1. 交互问题:各类变态的验证码充斥,尤为是12306,分分钟都想爆粗口,之后会愈来愈变态。。。

  2. js加密:最近很流行的一种反扒技术,会爬虫还得先学js,而后反爬虫工程师在js里面各类投毒,杀人诛心。。。

  3. IP限制:限制单个ip某段时间内访问次数

猪哥只介绍了一些反扒技术,固然都有现成的技术解决,可是做为爬虫员最重的并非会使用工具或框架去应对反扒,而是能经过本身的思考和摸索破解反扒,由于反扒技术更新快且多样化。
图片

2.就业

就业的话主要从招聘、薪资、就业形势三个方面分析,我从网上查阅了一些资料,而后整理以图片形式提供给你们参考。
图片
图片
图片
数据来源:职友集:https://dwz.cn/6PeU46QY

3.前景

如今不少人并不看好爬虫的前景,只搞爬虫的话技术只停留在当前水平,再也不学习新知识,再也不进步的话,那么是没有前途的,总有一天会被时代淘汰,其实其余职位也只如此。


每一个职业都是有一个横向和纵向的发展,也就是所谓的广度和深度的意思。第1、若是专研得够深,你的爬虫功能很强大,性能很高,扩展性很好等等,那么仍是颇有前途的。第2、爬虫做为数据的来源,后面还有不少方向能够发展,好比能够往大数据分析、数据展现、机器学习等方面发展,前途不可限量,如今做为大数据时代,你占据在数据的的入口,还怕找不到发展方向?因此爬虫也许只是一个起点一个跳板,是你走向人生巅峰的一个基石,总有一天你会迎娶白富美!

图片


5、总结

本期为你们讲解什么是爬虫、爬虫的价值、爬虫的合法性以及爬虫的现状,下期猪哥将采访一位牛逼的爬虫工程师,让他为你们讲讲实际工做中的一些知识以及做为一名爬虫工程师该掌握和学习哪些技能,让你们能更近距离接触爬虫,若是你有想对他提问的问题,能够在下方留言哦,我会抽取一些问题让他为你们解答,问题不限!

相关文章
相关标签/搜索