郑重声明:本项目的全部代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,由于滥用技术产生的风险与本人无关。python
这篇文章是公众号《云爬虫技术研究笔记》的《2019年底逆向复习系列》的第四篇:《今日头条WEB端_signature、as、cp参数逆向分析》git
本次案例的代码都已上传到Review_Reverse上面,后面会持续更新,你们能够Fork
一波。 github
今日头条算是新闻聚合领域的霸主了,它独创的推荐算法也是被后续的新闻聚合平台争相模仿,虽然如今今日头条平台逐渐下沉,面向的读者群也愈来愈“俗化”,它的自媒体红利期也渐渐过去。可是毕竟做为第一大资讯平台,它的流量以及内容时效性都会不可小觑的。 算法
如题所示,咱们此次须要分析的是它的_signature
、as
、cp
参数,也就是来自于他们获取新闻的接口 bash
Feed流
数据的接口,咱们具体看看这里面的参数
min_behot_time: 0
category: __all__
utm_source: toutiao
widen: 1
tadrequire: true
as: A1C50D8EF357F93
cp: 5DE387EF3933DE1
_signature: ICnfJAAgEBpV2FR6HfGzUCAp3zAAH3S
复制代码
比较重要的咱们猜大概就是as
,cp
,_signature
,而min_behot_time
的值是0
, 咱们在看看以后的Feed流
数据的接口是什么样的 并发
max_behot_time: 1575190175
category: __all__
utm_source: toutiao
widen: 1
tadrequire: true
as: A1D5FD3ED317EE1
cp: 5DE3678E8E41AE1
_signature: YzovjgAgEB0Wy6TQXOBj3mM6L5AAD7d
复制代码
大部分上看是相同的,可是min_behot_time
换成了max_behot_time
字段,并且这个值看上去是从以前的首页Feed流
中返回回来的 app
首先,咱们如今须要分析三个加密参数,as
,cp
,_signature
,从参数的常见性来讲,咱们选择搜索_signature
参数,由于它相比于其余两个参数来讲,match
的代码块会少点,咱们比较好找,咱们能够对比下。 ide
index.2c1dc950e325e1470bb8.js
这个文件跟进去,一共就5处,咱们直接在这个文件搜索
_signature
字符,找到了这个地方比较像加密的地方
as
,
cp
参数是否是也在这里生成
{
key: "_getData", //K,V结构的Js,看来这段代码是获取数据的接口的参数配置
value: function(t, e, i) {
var n = this;
if (!this.lock) { //估计是控制并发的,并发锁?
this.lock = !0,
this._setParams(t); //设置参数?难道是as、cp?
var a = function() {
n.lock = !1,
i && i()
}
, o = this._getSignature(this.url, this.params); //能够看到,这个地方加密了_signature参数
(0,
d.default)({
url: this.url,
data: (0,
s.default)({}, this.params, {
_signature: o
}),
success: function(i) {
var s = i || {}
, o = s.data || []
, r = o.length
, l = s.next && s.next.max_behot_time;
"success" === s.message && r && (n._qihuAdInsert(o),
o = n._dataPreHandle(o),
"refresh" === t ? (n._refreshItem = {
refresh_mode: !0,
behot_time: l,
time_ago: (0,
p.timeAgo)(l),
_index: o.length
},
n.list = o.concat(n.list)) : n.list = n.list.concat(o),
e && e(n.getList(), r)),
a()
},
error: function() {
a()
}
})
}
}
}
复制代码
初步静态分析是这样,咱们调试一下,看看具体的值 函数
_signature
的值,是
url
和
params
,看来
as
和
cp
在这以前已经计算好值了,推测是
this._setParams
,咱们在那里打个断点试试
咱们跳到this._setParams
这个方法,能够看到确实是这个方法产生了as
,cp
,并且若是t
的值是refresh
,就说明是刷新,须要从min_behot_time
这个参数开始请求,若是不是,那就继续根据max_behot_time
继续往下请求。 ui
js
代码,算法比较简单,你们能够继续往下扣
在今年年初分析的时候,_signature
的加密算法是能够从这里得出,也就是Tac.sign
的算法
Function(function(t) {
return '�e(e,a,r){�(b[e]||(b[e]=t("x,y","�x "+e+" y"�)(r,a)}�a(e,a,r){�(k[r]||(k[r]=t("x,y","�new x[y]("+Array(r+1).join(",x[�y]")�(1)+")"�)(e,a)}�r(e,a,r){�n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t<b;t�)s[n="$"+t]=r[n];for(t=0,b=s�=a�;t<b;t�)s[t]=a[t];�c(e,0,s)}�c(t,b,k){�u(e){v[x�]=e}�f�{�g=�,t�ing(b�g)}�l�{try{y=c(t,b,k)}catch(e){h=e,y=l}}for(�h,y,d,g,v=[],x=0;;)switch(g=�){case 1:u(!�)�4:�f��5:u(�(e){�a=0,r=e�;���{�c=a<r;�c&&u(e[a�]),c}}(���6:y=�,u(�(y��8:if(g=�,l��g,g=�,y===c)b+=g;else if(y!==l)�y�9:�c�10:u(s(���11:y=�,u(�+y)�12:for(y=f�,d=[],g=0;g<y�;g�)d[g]=y.charCodeAt(g)^g+y�;u(String.fromCharCode.apply(null,d��13:y=�,h=delete �[y]�14:���59:u((g=�)?(y=x,v.slice(x-=g,y�:[])�61:u(�[�])�62:g=�,k[0]=65599*k[0]+k[1].charCodeAt(g)>>>0�65:h=�,y=�,�[y]=h�66:u(e(t[b�],�,���67:y=�,d=�,u((g=�).x===c?r(g.y,y,k):g.apply(d,y��68:u(e((g=t[b�])<"<"?(b--,f�):g+g,�,���70:u(!1)�71:�n�72:�+f��73:u(parseInt(f�,36��75:if(�){b��case 74:g=�<<16>>16�g�76:u(k[�])�77:y=�,u(�[y])�78:g=�,u(a(v,x-=g+1,g��79:g=�,u(k["$"+g])�81:h=�,�[f�]=h�82:u(�[f�])�83:h=�,k[�]=h�84:�!0�85:�void 0�86:u(v[x-1])�88:h=�,y=�,�h,�y�89:u(��{�e�{�r(e.y,arguments,k)}�e.y=f�,e.x=c,e}�)�90:�null�91:�h�93:h=��0:��;default:u((g<<16>>16)-16)}}�n=this,t=n.Function,s=Object.keys||�(e){�a={},r=0;for(�c in e)a[r�]=c;�a�=r,a},b={},k={};�r'.replace(/[�-�]/g, function(e) {
return t[15 & e.charCodeAt(0)]
})
}("v[x++]=�v[--x]�t.charCodeAt(b++)-32�function �return �))�++�.substr�var �.length�()�,b+=�;break;case �;break}".split("�")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&eff�kx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb<k7l l!r&lengthb%^l$1+s$j�l s#i$1ek1s$gr#tack4)zgr#tac$! +0o![#cj?o ]!l$b%s"o ]!l"l$b*b^0d#>>>s!0s%yA0s"l"l!r&lengthb<k+l"^l"1+s"j�l s&l&z0l!$ +["cs\'(0l#i\'1ps9wxb&s() &{s)/s(gr&Stringr,fromCharCodes)0s*yWl ._b&s o!])l l Jb<k$.aj;l .Tb<k$.gj/l .^b<k&i"-4j!�+& s+yPo!]+s!l!l Hd>&l!l Bd>&+l!l <d>&+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld<l 4d#>>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd<l 6d#>>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d<l"b|&+l-l(l!b^&+l-l&zl\'g,)gk}ejo{�cm,)|yn~Lij~em["cl$b%@d<l&zl\'l $ +["cl$b%b|&+l-l%8d<@b|l!b^&+ q$sign ', [TAC = {}]);
复制代码
咱们看看如今它的算法有没有改变,咱们打断点再跳到_getSignature
这个方法看看
g.sign
部分,看看
g.sign
到底是什么算法
js
的
anonymous
算法,展开算法看看
控制流平坦化
,把代码逻辑变成统一的入口管理,咱们不细抠这段
js
, 咱们换个思路来查看这个方法,以前咱们定位的是
g.sign
,此次咱们换换思路,定位
g
对象试试,咱们在刚才的
g.sign
处往上找,看看有没有
g
对象
g
对象了,咱们往下跳,到了这个位置
e[a].call
,咱们能够看看
e[a]
是什么东西?
function(e) {
function t(a) {
if (o[a])
return o[a].exports;
var r = o[a] = {
exports: {},
id: a,
loaded: !1
};
return e[a].call(r.exports, r, r.exports, t),
r.loaded = !0,
r.exports
}
复制代码
e[a]
是个
anonymous
方法,和咱们以前看到的
sign
加密方法很像,咱们进去看看
t
方法改写下
var o ={};
var e = function(a) {
var r = {
exports: {},
id: a,
loaded: !1
};
return x.call(r.exports, r, r.exports, e),
r.loaded = !0,
r.exports
};
var x = function(t, e) {
Function(function(t) {
return 'e(e,a,r){(b[e]||(b[e]=t("x,y","x "+e+" y")(r,a)}a(e,a,r){(k[r]||(k[r]=t("x,y","new x[y]("+Array(r+1).join(",x[y]")(1)+")")(e,a)}r(e,a,r){n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t<b;t)s[n="$"+t]=r[n];for(t=0,b=s=a;t<b;t)s[t]=a[t];c(e,0,s)}c(t,b,k){u(e){v[x]=e}f{g=,ting(bg)}l{try{y=c(t,b,k)}catch(e){h=e,y=l}}for(h,y,d,g,v=[],x=0;;)switch(g=){case 1:u(!)4:f5:u((e){a=0,r=e;{c=a<r;c&&u(e[a]),c}}(6:y=,u((y8:if(g=,lg,g=,y===c)b+=g;else if(y!==l)y9:c10:u(s(11:y=,u(+y)12:for(y=f,d=[],g=0;g<y;g)d[g]=y.charCodeAt(g)^g+y;u(String.fromCharCode.apply(null,d13:y=,h=delete [y]14:59:u((g=)?(y=x,v.slice(x-=g,y:[])61:u([])62:g=,k[0]=65599*k[0]+k[1].charCodeAt(g)>>>065:h=,y=,[y]=h66:u(e(t[b],,67:y=,d=,u((g=).x===c?r(g.y,y,k):g.apply(d,y68:u(e((g=t[b])<"<"?(b--,f):g+g,,70:u(!1)71:n72:+f73:u(parseInt(f,3675:if(){bcase 74:g=<<16>>16g76:u(k[])77:y=,u([y])78:g=,u(a(v,x-=g+1,g79:g=,u(k["$"+g])81:h=,[f]=h82:u([f])83:h=,k[]=h84:!085:void 086:u(v[x-1])88:h=,y=,h,y89:u({e{r(e.y,arguments,k)}e.y=f,e.x=c,e})90:null91:h93:h=0:;default:u((g<<16>>16)-16)}}n=this,t=n.Function,s=Object.keys||(e){a={},r=0;for(c in e)a[r]=c;a=r,a},b={},k={};r'.replace(/[-]/g, function(e) {
return t[15 & e.charCodeAt(0)]
})
}("v[x++]=v[--x]t.charCodeAt(b++)-32function return ))++.substrvar .length(),b+=;break;case ;break}".split("")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&effkx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb<k7l l!r&lengthb%^l$1+s$jl s#i$1ek1s$gr#tack4)zgr#tac$! +0o![#cj?o ]!l$b%s"o ]!l"l$b*b^0d#>>>s!0s%yA0s"l"l!r&lengthb<k+l"^l"1+s"jl s&l&z0l!$ +["cs\'(0l#i\'1ps9wxb&s() &{s)/s(gr&Stringr,fromCharCodes)0s*yWl ._b&s o!])l l Jb<k$.aj;l .Tb<k$.gj/l .^b<k&i"-4j!+& s+yPo!]+s!l!l Hd>&l!l Bd>&+l!l <d>&+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld<l 4d#>>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd<l 6d#>>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d<l"b|&+l-l(l!b^&+l-l&zl\'g,)gk}ejo{cm,)|yn~Lij~em["cl$b%@d<l&zl\'l $ +["cl$b%b|&+l-l%8d<@b|l!b^&+ q$sign ', [Object.defineProperty(e, "__esModule", {
value: !0
})])
};
var get_signature = function(i){
var a = 299;
var tac = e(a);
return tac.sign(i)
};
console.log(get_signature(0));
复制代码
咱们运行以后会发现,报错以下
userAgent
的属性,那咱们全局定义一个
global.navigator = {
userAgent: 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
}
复制代码
获得了正确的结果
综上所分析的思路,咱们能够画出下面的as
,cp
,_signature
参数获取流程
有了上面这个分析流程,咱们就能够开始Coding
了,首先是as
,cp
的加密方法
_signature
的加密方法,
ua
参数是咱们传入的
python
汇总一下
从这个复习的案例咱们能够总结下思路:
Match
尽可能少的去全局搜索、分析。g.sign
变成去寻找g
参数。js
加密方法的时候,真理就是缺啥补啥
,如同咱们刚才运行方法的时候缺乏了ua
参数,咱们就定义个全局的ua
参数,或者咱们缺乏某个对象的时候,补充就行了。多年反爬虫破解经验,AKA“逆向小学生”,沉迷数据分析和黑客增加不能自拔,虚名有CSDN博客专家和华为云享专家。
呕心沥血从浩瀚的资料中整理了独家的“私藏资料”,公众号内回复“私藏资料”便可领取爬虫高级逆向教学视频以及多平台的中文数据集