python爬虫的一个常见简单js反爬

时间 2019-12-13

标签 python 爬虫一个常见简单栏目 Python 繁體版

原文原文链接

python爬虫的一个常见简单js反爬

咱们在写爬虫是遇到最多的应该就是js反爬了，今天分享一个比较常见的js反爬，这个我已经在多个网站上见到过了。javascript

我把js反爬分为参数由js加密生成和js生成cookie等来操做浏览器这两部分，今天说的是第二种状况。html

目标网站

列表页url:http://www.hnrexian.com/archives/category/jk。java

正常网站咱们请求url会返回给咱们网页数据内容等，看看这个网站返回给咱们的是什么呢？python

咱们把相应中返回的js代码格式化一下，方便查看。浏览器

< script type = "text/javascript" >
function stringToHex(str) {
    var val = "";
    for (var i = 0; i < str.length; i++) {
        if (val == "") val = str.charCodeAt(i).toString(16);
        else val += str.charCodeAt(i).toString(16);
    }
    return val;
}
function YunSuoAutoJump() {
    var width = screen.width;
    var height = screen.height;
    var screendate = width + "," + height;
    var curlocation = window.location.href;
    if ( - 1 == curlocation.indexOf("security_verify_")) {
        document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
    }
    self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate);
} < /script>
  <script>setTimeout("YunSuoAutoJump()", 50);</script >

说好的返回网页数据源码呢，这是什么东西!cookie

js破解思路

js破解提供两种思路，一种是直接用Python来重写js内容，实现模拟js的操做，这种通常用于比较简单的js；还有一种是用Python第三方库来解析js，好比pyv8,execjs这些（我的以为execjs比较好用），这种通常用于比较复杂的js解析。python爬虫

分析返回的js分红两个部分。第一部分，定义了stringToHex和YunSuoAutoJump两个函数。第二部分，50毫秒后执行YunSuoAutoJump这个函数。curl

YunSuoAutoJump这个函数功能是添加一个cookie并去请求一个构造的url，能够从document.cookie 和 self.location这里看出。stringToHex这个函数的共能其实就是字符串的转换，具体js内容能够参考这个网址https://www.runoob.com/js/js-tutorial.html自行查找。函数

python重写代码

那么接下来就是用python来重写js啦，重写后代码以下。网站

def stringToHex(string):
    length = len(string)
    hex_string = str()
    for i in xrange(length):
        hex_string += hex(ord(string[i]))[2:]
    return hex_string

def get_cookie(url):
    hex_string = stringToHex(url)
    cookie = {"srcurl": hex_string, "path": "/"}
    return cookie

这是那两个函数，一个用于字符串转换，一个用于获取cookie。

最后拿到结果

接下来模拟浏览器操做，其中是分为三部分。第一次，咱们请求目标url，而后返回给咱们js内容；第二次，js添加1个cookie并请求了1个构造出的url；第三次请求原目标url，获得最终的数据。

这里咱们用requests.Session来保持链接，模拟上面三部的内容。

url = "http://www.hnrexian.com/archives/category/jk"
s = requests.Session()
r = s.get(url)
url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0]
screen_date = "1920,1080"
url_2 = url_2 + stringToHex(screen_date)
url_2 = urljoin(url, url_2)
cookie = get_cookie(url)
s.cookies.update(cookie)
r2 = s.get(url_2)
url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0]
r3 = s.get(url3)
r3.encoding = "gbk"
print r3.text

到这里咱们就完美获得最后想要的内容了。

欢迎你们交流分享欧!感兴趣能够关注下我，公众号python爬虫笔记。