最近有一个爬虫面试题(http://shaoq.com:7777/exam)在圈内看起来挺火的,常常在各个爬虫群里看到它被提到,而几乎全部提到这个面试题的人在题目限制的条件下就不知道该怎么办了,但这题目其实真的并不难,甚至能够说应该只是为了在招人时再过滤一遍只会写解析,拿着Selenium和代理池硬怼的人罢了(以前招人的时候见过不少,甚至有不少2-3年经验还处于这个水平)。css
形成爬虫圈子如今这个状况的缘由我以为多是由于各类爬虫书籍/培训班/网课都没有讲到过关于逆向方面的知识,他们的教学更倾向于Python语法、正则表达式、XPath这些很是基础的东西和常见爬虫框架/工具的简单用法,而读者/学员学完以后的水平充其量也就只能爬爬豆瓣之类的简单网站,面对有点简单反爬的就一脸懵逼,只能拿着Selenium和代理池硬怼。那么为了提高一下爬虫圈内的平均水平,写点别人没讲或者不想讲的东西并分享出来就颇有必要了,这个专栏也是所以而生的。html
扯远了,开始讲这个面试题吧,请站稳扶好,老司机要开始飙车了。首先作好如下准备,等会儿会用上,括号内是文中所使用的工具名或版本号:python
准备好了以后就能够开始了,先抓个包看看题目是啥样的。git
先是一个跳转页github
而后会跳转到内容页,已经能够看到须要的文字了web
看起来好像只须要拿到跳转后的HTML就好了?实际并非,这里能够看到上面这一行字里除了“python”和“题”之外,其余的标签在HTML中都是没有文本内容的,对应的内容全都显示在了右边的CSS样式中。面试
可是抓包的时候也没看到CSS,是否是把CSS嵌在了HTML中呢?打开这个HTML的代码看看,一大坨加密的JS一眼可见,也并无看到style标签,显然这个CSS是经过JS生成后加进去的。正则表达式
不少人对JS逆向毫无了解,看到这里已经懵逼了,碰到这种状况还不让用Selenium之类的工具,又要爬到内容,彷佛彻底没办法了啊。那应该怎么办呢?其实很简单,看完这篇文章你就知道应该怎么作了,下面我将用代码对这个面试题的考点逐个击破(完整代码将在文章结尾处放出)。数组
先请求一下这个URL看看会返回什么结果。浏览器
提示:aiohttp_requests库能让你在用aiohttp进行请求时能使用相似于requests库的语法,而且能正常使用session功能,而不须要写一层接一层的async with xxxxxxx
。
请求返回的结果是最开始的跳转页,距离真正的内容页还差一点距离
断点断下来看看resp,已经能够看到一个名为session的Cookie被set了,以前抓包的时候也是有看到服务器返回这个Cookie的。那么直接带着这个Cookie再次请求是否是就能够拿到那个内容页了呢?咱们将代码改一下,对这个URL再次请求:
咦?有了这个Cookie以后的请求怎么仍是返回这个跳转页呢?
如今再回到抓包工具中仔细看看,是否是发现抓到的浏览器请求里这两个请求之间是有一堆图片的,且第二次请求时,请求头里的东西也没有啥变化?
是这样的,其实它的服务端对客户端是否加载了图片进行了判断,若是客户端没有加载图片就直接开始取内容,那除了网速慢和刻意关闭了图片的人之外,基本就能够肯定是爬虫了,因此这是一个简单粗暴的反爬措施。
知道了这个考点以后就很简单了,取出图片的URL并和浏览器同样进行请求就行了。再次修改代码:
提示:由于这里重用host部分的次数不少,我把host部分写成了一个常量。
提示:f"{HOST}{image.get('src')}"
是format string,python3的一个语法糖,最开始有这个语法糖的版本已经记不清了,若是你发现这段代码在你的环境里没法运行,能够把这里改为"{}{}".format(HOST, image.get("src"))
。
提示:asyncio.gather
是asyncio库的并发执行任务函数,传入的是一个协程函数列表,因此里面的requests.get
不须要加await。
能够看到已经取到了内容页的HTML,第一个考点咱们已经跨过去了,接下来要想一想怎么拿到那个CSS的部分了。
那么这个JS要怎么处理呢?其实咱们可使用Python调用JS的方式去执行它页面中的那段代码,从而生成出标签中对应文字部分的CSS。这里推荐使用pyexecjs库 + NodeJS来执行JS代码,pyexecjs库能够说是目前最好的Python执行JS代码的库了,另一个比较常见的库——PyV8,存在严重的内存泄漏BUG,不建议使用。
可是直接执行这段JS代码是不可能有用的,咱们还须要分析一下它的内容并按咱们的使用方式修改一下。先把那段JS复制出来,打开JavaScript IDE/编辑器,并把它丢进去进行分析。
此处省略几百行变量
能够看到script标签里是一个匿名函数,传入了一个document
参数(函数内的uH
),而实际这个匿名函数的主要流程代码很是地少,只有两个部分。
一个是开头的这里
一个是靠近结尾位置的这里
第一部分没有作什么操做,只是建立了一个element,那么核心部分应该就是第二部分,跳到它调用的jE_
函数看看。
提示:WebStorm中能够用鼠标中键或Ctrl+鼠标左键点击jE_
,跳转到对应的函数位置
这个jE_
是这么一坨看不懂的东西,看不懂就无法搞了,怎么办呢?仔细看看上面那些用到的变量,是否是都是那一坨给变量赋值的地方出来的?那么咱们只须要把那一串加起来的东西写成一个新的变量,打个断点在下面而后运行一下,就能直接看出它是啥了。(更高级的加密JS在还原时须要用到AST解析库和相关知识写工具处理而非手动处理,这里暂时还不须要用)
等一等,如今你还不能运行这段代码,由于你没有document,document是浏览器中特有的一个全局变量,而NodeJS中是不存在document这东西的,是否是以为事情有点麻烦了起来?不要紧,问题不大,既然NodeJS中没有,那咱们就本身造一个,这里使用jsdom库来模拟浏览器中的dom部分,从而作到在NodeJS中使用document的操做。固然你若是想要本身造也是能够的,只须要按着报错提示一个一个地实现这段JS代码中调用的document.xxx便可。
这个jsdom库的使用方式很简单,只须要按照文档上的说明导入jsdom,再new一个dom实例就能够了。
Basic usage
const jsdom = require("jsdom"); const { JSDOM } = jsdom; 复制代码
To use jsdom, you will primarily use the
JSDOM
constructor, which is a named export of the jsdom main module. Pass the constructor a string. You will get back aJSDOM
object, which has a number of useful properties, notablywindow
:const dom = new JSDOM(`<!DOCTYPE html><p>Hello world</p>`); console.log(dom.window.document.querySelector("p").textContent); // "Hello world" 复制代码
注意了,这里的dom变量还并非咱们要的document变量,真正的document变量是dom.window.document
,因此咱们的代码能够这样写:
执行一下看看效果
原来上面的两个参数分别是decodeURIComponent
和%E6%81%AF%E6%95%B0%E9%9D%A2%E7%88%AC%E8%99%AB%E4%BF%A1%E6%8A%80%E5%88%9B%E8%AF%95%E7%A7%91
,咱们把后面那段一眼就能看出是通过urlencode的字符串还原一下看看。
嗯...其实就是页面上的那句话了,只不过它是乱序的,咱们接着往下执行看看它还作了什么操做。
往下执行时报错了,看起来是缺乏了decodeURIComponent
这个函数,那decodeURIComponent
前面的那个uc_
又是什么呢?用一样的方式能够看到,实际上是window
。
也就是说这句代码还原成正常的样子其实就是this.window.decodeURIComponent("%E6%81%AF%E6%95%B0%E9%9D%A2%E7%88%AC%E8%99%AB%E4%BF%A1%E6%8A%80%E5%88%9B%E8%AF%95%E7%A7%91")
,而NodeJS的decodeURIComponent
并不在this.window
中,因此咱们仍是须要经过最开始造document
的操做,再给它弄一个this.window.decodeURIComponent
,代码很简单,改为这样便可:
而后咱们再执行一遍
此次就能正常运行完毕了,可是咱们要的东西去哪儿了呢?咱们继续往下打断点看,vz_
是乱序的文字,ti_
是一个里面只有数字的数组,SE_
则只有两个空字符串,KI_
函数没有进行赋值,而最后的return实际上是没有任何做用的,由于jE_
在主流程中是最后一个被执行的函数,它返回的值赋给了xe_
后并不会被使用。因此这里彷佛只有SE_
和KI_
比较可疑了,断点进入给SE_
赋值的Er_
函数看看。
看来这个Er_
函数并不会作什么,那么咱们要的核心部分能够肯定就是KI_
这个函数了。接着追到下面的KI_
函数。
这里它又调用了一个叫Ks_
的函数,跟着它继续往下跳。
又是熟悉的Er_
,还记得刚刚看到的吗,它只是作了一个split操做而已,ti_
是前面那个只有数字的数组,这里的NL_
只不过是按顺序取了一个ti_
里的元素罢了,下面没见过的BD_
和Je_
才是重点。
这里断下来看出BD_
实际上是一个取前面那串乱序字符串中其中一个文字的东西,继续往下执行能够看到最终出来的YO_
是一个字。
那么Je_
呢?继续往下执行看看
Je_
里调用了ee_.insertRule
,而ee_
是前面被赋值的
因此实际上它是新建了一个element并往里面写了咱们要的CSS。看到这里,其实这个考点已经被破掉了,咱们只须要读出ee_
返回给Python,就能够把那段文字给恢复出来了。
将JS代码再修改一下:
而后咱们试一下能不能用,记得将这里的html字符串替换成你请求时返回的。(一般这种用到浏览器内特有的一些变量的JS都会埋下一些坑,建议读者养成彻底模拟浏览器环境的习惯,固然若是不怕遇到坑的话只给JS中须要用到的东西也能够,而这个题目自己并无这种坑,因此只弄一个空的dom而且魔改一下只传入字符串和数组部分也能用。)
boom!CSS成功地被咱们拿到手了,左边的codexx对应右边的content部分文字,与浏览器中的如出一辙,JS部分算是搞好了,咱们要继续写咱们的Python代码,先把html=xxx
开始的部分所有删除掉,只保留上面导入包的部分和get_css
这个函数的部分。
回到Python代码部分,修改为调用JS获得CSS后处理一下CSS和HTML的对应关系,并取出全部文字内容再打印出来。
提示:这里的dict(list)是一个Python的语法糖,能够快速地将[[1,2],[3,4]]转成{1:2, 3:4}
提示:这里可能会出现一个问题,以前直接用NodeJS执行没问题的代码,通过PyExecJS调用以后却报错了,这个问题彷佛只有在Windows系统上才会出现,主要缘由应该是Windows的编码问题,碰到这种状况能够用Buffer.from(string).toString("base64");
将返回的字符串编码为Base64,在Python中再进行解码。
执行一下看看,是否是已经拿到了须要的那行字了呢?
若是这篇文章有帮到你,请大力点赞,谢谢~~ 欢迎关注个人知乎帐号loco_z和个人知乎专栏《手把手教你写爬虫》,我会时不时地发一些爬虫相关的干货和黑科技,说不定能让你有所启发。