关于千里马招标网知道创宇反爬虫521状态码的解决方案(python代码模拟js生成cookie _clearence值)

1、问题发现

近期我在作代理池的时候,发现了一种之前没有见过的反爬虫机制。当我用常规的requests.get(url)方法对目标网页进行爬取时,其返回的状态码(status_code)为521,这是一种之前没有见过的状态码。再输出它的爬取内容(text),发现是一些js代码。看来是新问题,咱们来探索一下。html

 
状态码和爬取内容.png

2、原理分析

打开Fiddler,抓取访问网站的包,咱们发现浏览器对于同一网页连续访问了两次,第一次的访问状态码为521,第二次为200(正常访问)。看来网页加了反爬虫机制,须要两次访问才可返回正常网页。python

 
Fiddler抓包信息.png

下面咱们来对比两次请求的区别:正则表达式

521请求:浏览器

 
521请求.png

200请求:bash

 
200请求.png

经过对比两次请求头,咱们发现第二次访问带了新的cookie值。再考虑上面程序对爬取结果的输出为js代码,能够考虑其操做过程为:第一次访问时服务器返回一段可动态生成cookie值的js代码;浏览器运行js代码生成cookie值,并带cookie从新进行访问;服务器被正常访问,返回页面信息,浏览器渲染加载。服务器

3、解决流程

弄清楚浏览器的执行过程后,咱们就能够模拟其行为经过python做网页爬取。操做步骤以下:cookie

  1. 用request.get(url)获取js代码函数

  2. 经过正则表达式对代码进行解析,得到JS函数名,JS函数参数和JS函数主体,并将执行函数eval()语句修改成return语句返回cookie值网站

  3. 调用execjs库的executeJS()功能执行js代码得到cookie值url

  4. 将cookie值转化为字典格式,用request.get(url, cookies = cookie)方法获取获得正确的网页信息

4、代码实现

实现程序所须要用到的库:

import re #实现正则表达式 import execjs #执行js代码 import requests #爬取网页 

第一次爬取得到包含js函数的页面信息后,经过正则表达式对代码进行解析,得到JS函数名,JS函数参数和JS函数主体,并将执行函数eval()语句修改成return语句返回cookie值。

# js_html为得到的包含js函数的页面信息 # 提取js函数名 js_func_name = ''.join(re.findall(r'setTimeout\(\"(\D+)\(\d+\)\"', js_html)) ​ # 提取js函数参数 js_func_param = ''.join(re.findall(r'setTimeout\(\"\D+\((\d+)\)\"', js_html)) ​ # 提取js函数主体 js_func = ''.join(re.findall(r'(function .*?)</script>', js_html)) 

将执行函数eval()语句修改成return语句返回cookie值

# 修改js函数,返回cookie值 js_func = js_func.replace('eval("qo=eval;qo(po);")', 'return po') 

调用execjs库的executeJS()功能执行js代码得到cookie值

# 执行js代码的函数,参数为js函数主体,js函数名和js函数参数 def executeJS(js_func, js_func_name, js_func_param): jscontext = execjs.compile(js_func) # 调用execjs.compile()加载js函数主体内容 func = jscontext.call(js_func_name,js_func_param) # 使用call()经过函数名和参数执行该函数 return func cookie_str = executeJS(js_func, js_func_name, js_func_param) 

将cookie值转化为字典格式

# 将cookie值解析为字典格式,方便后面调用 def parseCookie(string): string = string.replace("document.cookie='", "") clearance = string.split(';')[0] return {clearance.split('=')[0]: clearance.split('=')[1]} cookie = parseCookie(cookie_str) 

得到cookie后,采用带cookie的方式从新进行爬取,便可得到咱们须要的网页信息了。

做者:欲摘桃花换酒钱连接:https://www.jianshu.com/p/37d549a4bf44来源:简书

相关文章
相关标签/搜索