一个爬虫的故事:这是人干的事儿?

爬虫原理

我是一个爬虫,天天穿行于互联网之上,爬取我须要的一切。前端

提及来还要感谢HTTP协议,由于它,全世界的网站和浏览器才可以链接通讯,而我也是借助HTTP协议,获取我想要的数据。程序员

我只须要假装成一个浏览器,向服务器发送HTTP请求,就能拿到网页HTML文件。web

接着,我再按照HTML的格式规范,去解析其中的图片<img>、连接<a>、表单<form>等等我关注的信息。编程

获取连接标签之后,我又能够进一步爬取连接背后的网页,如此反复,要不了多久,一个网站中暴露出来的内容我就能爬个干净。后端

固然了,我们作爬虫也仍是有底线的。干咱们这一行,有一个约定俗成的规定,那就是Robots协议跨域

只要你在网站的根目录下放置一个叫robots.txt的文件,里面写上哪些目录禁止访问,我就会绕道而行,就像这样:浏览器

User-agent: *服务器

Disallow: /a/微信

Disallow: /b/网络

Disallow: /c/

就像程序员们常常互相鄙视同样,在我们爬虫的圈子里,也存在鄙视链。

地位最高的要数搜索引擎的爬虫了,他们高高在上,正大光明的爬,各个网站欢迎还来不及,都想被他们收录到搜索引擎之中,给网站带来流量。这些爬虫,都是圈子里的大佬,咱们惹不起。

另外有一些爬虫,他们有的不遵照robots协议,随意乱爬,有的一每天的净知道爬美女图片,把人家服务器爬崩溃了,这些爬虫咱们也是看不起的。

像我这样老实本分的爬虫,平日的工做就是爬取一些网站的数据,像购物网站、点评网站等等。虽然咱们很守规矩,但这些个网站仍是很不待见咱们,为了拿到数据,咱们展开了旷日持久的拉锯战。

反爬虫技术

如今不少网站都上云了,云上的资源可昂贵了,CPU、内存、存储这些都价格不菲,尤为是网络带宽,价格是真心贵。

那些网站不待见我们这些爬虫也就能够理解了,咱们不像搜索引擎爬虫能够给他们带来好处,相反,还会消耗他们的服务器性能,花掉他们宝贵的流量,那但是白花花的人民币,谁不心疼啊?

因此这些网站加了一个措施:一旦在HTTP请求中的user-agent字段发现这是一个爬虫,那就不搭理咱们了。

这个user-agent是HTTP协议中表示客户端名字的字段,那个时候我刚刚入行,没什么经验,不懂得假装,很容易就被发现。

为了可以继续爬数据,我只好改头换面,假装成了浏览器的名字,圈子里有的兄弟还假装成了搜索引擎爬虫的名字,我可不像他们那样没下线。

这一招管用了没多久,这些网站就升级了策略,经过咱们的行为来识别是否是真的浏览器。咱们毕竟是程序,那速度比人类点击快多了,网站一旦发现咱们短期内发起了不少请求,那就掐断链接。

我只好下降爬取的频率,避免被拉入黑名单。

有些网站更狠,在网页里面插入一些假的图片,只有几个像素那种,人类的眼睛是看不见的,可是咱们不知道啊,对我来讲都是<img>标签,我一访问就中计了!马上被拉入黑名单。

没有办法,摊上这种事,我只好想办法换个IP再去爬,真是难顶。

据说圈子里有些大佬用上了分布式技术,组团去爬,不少个IP地址,其中一个或者几个封了也不用怕,我真是很羡慕。

先后端分离

在个人职业生涯中,遇到过一些奇怪的网站,明明网页中有数据,可是我一访问拿到的HTML中啥也没有,一度让我很郁闷。

后来才知道,原来他们用上了一个叫先后端分离开发的技术,数据再也不从服务器渲染到HTML网页中,而是浏览器经过单独的API接口拿到后再动态加载出来,难怪我拿到的只是一个空壳子。

为了拿到数据,我只好也学着去请求这些数据接口,不过由于这些网站都有API网关,会检查请求的Token或者Authorization之类的认证字段,再加上我不知道他们的接口参数格式,致使我常常拿不到数据。

到了最近两年,我拿到的网页HTML愈来愈简单了,在浏览器中丰富多彩的页面,一查看源代码居然只有简单几行,真是见了鬼了!

终于有一天,一个前辈告诉我,如今流行单页应用SPA了,页面全都是在前端动态生成的,拿到的HTML根本没有价值。

这简直欺人太甚了!

一不作二不休,我决定弄一个真正的浏览器进来,这个内嵌的浏览器没有界面,专门为我服务,嵌入到个人程序中,让他去真正的渲染网页,渲染完成后我再去取数据!

这是真正意义上模拟人类去访问网站了,不再用模拟繁琐的数据接口访问,也不用担忧单页应用,前端渲染就前端渲染,我不再怕了!

验证码

到后来,不知道是谁发明的,网站们纷纷用上了一种叫验证码的技术,给咱们出了难题。

开始的验证码还算比较简单,通常都是些简单的数字、英文字符作了些变形,就像这样:

圈子里很快有大佬教咱们用文字识别技术OCR来自动识别这种验证码,我也折腾了一下,费了老大劲终于能够识别出来,准确率不敢说100%,99%仍是有的。

不过没多久,这验证码就变得愈来愈复杂,什么汉字识别,物体识别,滑动解锁,一个比一个难,根本超出了个人理解范围,你瞧瞧下面这些验证码,这是人干的事儿吗?

哎,这还真是人才能干的事,不是咱们爬虫能干的~

现在,这些网站的反爬虫技术愈来愈先进,咱们能发挥的空间被一步步挤压。

前段时间,有个愣头青爬虫把一家公司的服务器给爬崩溃了,把人家正常业务都弄停掉了,他还被抓了起来,如今监管愈来愈严,搞得你们人心惶惶。

内忧外患不断,很多爬虫兄弟失业的失业,转行的转行,爬虫这碗饭,真是愈来愈很差吃了。。。

往期TOP5文章

我是Redis,MySQL大哥被我害惨了!

CPU明明8个核,网卡为啥拼命折腾一号核?

由于一个跨域请求,我差点丢了饭碗

完了!CPU一味求快出事儿了!

哈希表哪家强?几大编程语言吵起来了!


本文分享自微信公众号 - 编程技术宇宙(xuanyuancoding)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。