若是你不知道作什么,那就学一门杂学吧

若是你不知道作什么,那就学一门杂学吧

序言

这篇文章没有代码,请放心阅读。html

多年之后,面对人工智能研究员那混乱不堪的代码,我会想起第一次和S君相见的那个遥远的下午。那时的B公司,仍是一个仅有6我的的小团队,Mac和显示器在桌上依次排开,你们坐在一块儿,不须要称呼姓名,转过脸去,对方就知道你在和他说话。一切看起来都那么美好,咱们全部人,都但愿本身和这个公司可以一块儿成长。前端

彼时S君刚从加拿大回来,老板把他介绍给咱们,因而S君做为数据产品经理跟我有了项目上的接触。正则表达式

创业公司里面,每个人都须要会不少的技艺,因而S君开始自学Python。数据库

有一天,S君问我:“你玩MineCraft吗?“编程

“玩,但我更喜欢在B站上看别人的世界。”我答道。小程序

“我以为我如今写程序,像是在玩个人世界。”S君笑着说道。微信小程序

“是否是以为你已经掌握了Python的基本语法,看着别人把Python用的溜溜转,而你本身殊不知道用它来作什么?”安全

“是这样的,你懂我。”微信

“那你学一门杂学吧。”框架

因而S君被我诱拐过来跟我一块儿写爬虫。

后来,S君离开了B公司。

三个月后,我也离开了。

今后,咱们再也没有见过。

写爬虫与三峡大坝

有一天,S君兴冲冲地跑来跟我说:“我体会到三峡大坝的伟大功能了!”

“你是爬虫工程师仍是水利工程师?”

“你知道吗,无论上游的水势多么凶猛,从大坝出来之后老是安全而稳定。”S君并无回答个人问题,而是自顾自地说道。

“原来你开始用Kafka。不错,孺子可教。”

S君吐了一下舌头:“仍是师傅教导有方。”

前不久,S君的爬虫刚刚达到了日产数据千万条的目标。然而他只高兴了一天。由于他发现,数据写到数据库之后,读起来很麻烦。

S君有多个数据分析的系统须要从数据库里面读取爬虫爬好的数据,可是从天天千万量级的数据中寻找特定的数据是一个很慢的过程。若是程序遇到异常致使崩溃,又得从头开始读。

S君问我:“如今我每个数据分析的脚本都要从数据库里面读一次数据,作了太多重复的工做,单机单节点的数据库快要撑不住了。我是否是要去学习分库分表搭建集群啊?”

我告诉S君:“这个后面你天然是须要去作的。但如今,你能够先试一试Kafka,我已经搭建好了一个Kafka的集群了,你这样使用……”。

后来,S君让全部爬虫把爬到的数据到直接送进了Kafka,而后再从Kafka里面读数据出来,一个Group用来备份原始数据,一份Group用来生成中间表,一份Group用来监控报警,一份Group用来绘制DashBoard。不管爬虫塞给Kafka的数据有多少,有多快,从Kafka读数据的地方都能按照本身的节奏来消费和使用。

编程最重要的能力是变通

S君是一个老实孩子。

在开发一个爬虫的过程当中,网站接口返回给他的数据看起来是JSON格式,因而他就用Python自带的JSON库去解析。结果解析失败了。由于这些所谓的看起来像JSON的东西,居然没有双引号。

难道是JSON的超集?S君一通搜索,发现用YMAL库也许能够解析这种数据。因而安装YMAL库,一解析又报错。

难道这些数据直接就是Python的字典?因而S君用上了邪恶的eval。又报错,由于里面有null和小写的true。

“你为何不试一试直接用正则表达式呢?”我对S君说。

“靠!”S君一拍桌子,旁边的老板吓得把搪瓷杯子里面的快乐水洒在了白衬衣上。

而后S君用正则表达式花了10秒钟结束了战斗。

既然收集了数据就要让它发光发热

S君在加拿大留学时学的专业是金融数学和统计。因此他对数据分析也颇有兴趣。在他爬虫收集的数据够用之后,我跟他讲了如何使用Pandas来分析数据。

S君把他分析的酒店价格变化数据给分享给了咱们。不愧是金融+数学+统计学背景的高级知识分子 + 超级强大的Pandas + 超级好用的Jupyter。这份数据不只完美再现了过去一年的价格走势,还预测了将来的任何变化,多达四十六张图表彷佛穷尽了全部的组合。

你小学上课传过纸条吗

“我如今能体会那些半路拦截纸条的人是什么心态了。”这是S君第一次使用Charles时对我说的话。

今后之后,我不多看到S君分析网页了。由于他学会了在爬虫开发的过程当中,首先经过中间人***技术分析微信小程序和手机App。这种方式每每可以直接得到数据,拿到数据之后就能直接储存,不再用写烦人的XPath或者长的跟表情符号同样的正则表达式了。

有一天,我在玩一个网页版的***解密游戏,在网页上寻找某个地方隐藏起来的密码,而后输入每一关的回答框中,答对才能进入下一关。

游戏有12关,而我卡在了第6关。只见S君拿着电脑走到我面前,指着第12关的通关页面跟我炫耀。

“你是否是用MITMProxy替换了这个网站的Js文件?”

“果真仍是瞒不过师傅你啊。”

“你拦截了别人的纸条,作了修改,而后又叠好继续传下去,你有考虑过发纸条的人和收纸条的人的感觉吗?”

“我小学时候不传纸条,都是妹子直接约个人。”

加密?不存在的

“前端没有秘密”。S君在成功逆向了一个网站的Js文件之后如是对我说。

“那是由于这个网站的Js代码就赤裸裸地放在你面前,彻底没有混淆。”我对S君说道。

“不怕,我能够用Node.js来运行混淆过的代码。我已经搭建好Node.js服务了,只要把Js代码传进去,他就会把结果给我返回回来。”S君对此彷佛一脸自行。

“你何时学会的Node.js?”

“这不是师傅你说过技多不压身吗?既然作爬虫须要动JavaScript,那我顺手就把Node.js给学了。”S君绝不畏惧的表情,彷佛证实他已经猜透了我要问什么。

“那若是目标没有网站,只有App呢?”

“不怕,Android 逆向工程我也顺便研究了一点。Java我也看得懂。”

“看来这些已经不须要我再教你了。”

你确定薅了直播答题的羊毛吧

去年年末的直播答题着实火了一把。那个时候,我和S君分开已经有一段时间了。我相信,在全民答题的每个夜晚,S君的电脑上必定连着很多于六台安卓手机。这些手机运行着不一样的答题平台,可以自动读取屏幕上的问题并自动选择答案。

我把安卓自动化测试技术教给S君,原本是让他结合爬虫,实现群控从而抓取一些难以处理的数据,但我相信他确定会用来答题。

变通,这一点他学的愈来愈好了。

只但愿他不要成为羊毛党。

后记

后来,我再也没有见过S君这样有趣的人。因此我把我和S君的故事写成了一本书:《Python爬虫开发 从入门到实战》,如今已在京东,当当与亚马逊上架。

京东:https://item.jd.com/33577263621.html
当当:http://product.m.dangdang.com/25349717.html
亚马逊:https://www.amazon.cn/dp/B07HGBRXFW

爬虫是一门杂学。由于在一个完整的开发过程当中,须要涉及到的知识能够包括但不限于:Python,HTML,JavaScript,正则表达式,XPath,数据库,Redis,消息队列,Docker,ELK,Hadoop,数据分析,ETL,中间人***,自动化测试技术,可视化……

这其中的任何一项,在一个大公司里面均可以让不少人来作。

就像这篇文章里面反复出现的一个词:变通。

只要可以得到数据,任何技术均可以使用。所谓草木竹石皆可为剑。

爬虫开发,绝对不只仅是Scrapy,PySpider,requests这些框架或者库的使用。因此在这本书里面,我也刻意减小了框架使用说明的部分,而把重点放在了各类突破反爬虫机制或者使用变通的方法绕过反爬虫机制的方法论和实践中。

经过学习爬虫,你最后不必定选择爬虫工程师这个岗位,可是在学习爬虫的过程当中,你将会接触到的各类工具,方法,服务组件,都会在你之后的生活和工做中帮到你,让你知道,在遇到一个问题的时候,解决方法在哪一个地方。

相关文章
相关标签/搜索