其实在之前就盯上 有道翻译了
的,可是因为时间问题一直没有研究(个人 骚操做还在后面 ,记得关注),本文主要讲解如何用python调用有道翻译,讲解 这个爬虫与有道翻译 的js“ 斗争
”的过程!javascript
对于一个网站,首先确定要的就是分析,分析其中的网页规则java
分析urlpython
进入有道翻译你会发现它的url是没有变化的,也就是说它的请求是经过ajax异步交互的。点击F12,很容易在 XHR 中找到这个交互的请求,点击查看信息,你会发现一串参数,其中有几个仍是加密了的,啥salt盐啥的。先有个数。web
ajax
分析参数01json
能够大胆猜想:这个关键参数确定在一块。咱们搜索 salt
,而后正常的点击,格式化展开,在js中再次搜索 salt
。想找相关salt附近看看 能不能找到断点 进行调试!固然,最终你能够找到11个相关内容能够在每一个附近进行断点调试。你这样乐意找到相关位置关键加密字段和函数。浏览器
在这里插入图片描述cookie
在这里插入图片描述app
在这里插入图片描述异步
分析参数02
此次,我们使用浏览器调用堆栈的功能,查看js执行的堆栈进行查找。直接点击到对应模块打断点便可进行观察。最终你会找到这个位置 generateSaltSign(n)
的这个函数,主要加密函数都在里面执行
在这里插入图片描述
在这里插入图片描述
加密分析
其实有道翻译的加密是比较简单的了,你一看,
navigator.appVersion
是啥是吧,我打印一看。就是 浏览器头进行md5加密的嘛 ,能够固定不变的,也就是说这个 bv(t)
参数它能够是固定不变的。ts
不就是13位当前时间戳吗!salt
不就是时间戳后面加上100内的随机数吗,随便取一个就行。sign
不就是 "fanyideskweb" + 翻译的字符串 + salt + "n%A-rKaT5fb[Gy?;N5@Tj"
这么一串串数字而后 md5加密的嘛!经过后面的分析发现这些参数并无变化。因此此次生成的是惟一的,可是有一个前提是5000字之内,若是超出5000字他会截取前5000字,这点须要注意一下。
注意点
既然有了上面的规则,那么我们就能够经过这部分的规则和抓包的信息整合用python模拟完成js的事件,发送请求。这里面有几点须要注意的。
md5加密模块
, 时间time模块
,可以作出一些等价的一些转化。恰好,py的 hashlib
和 time
模块 can fullfill 你。这个问题解决。header
,你们必定不要麻批大意。这个content—length,通过个人经验告诉我它若是填错了就会报错,而且不填通过抓包分析系统会自动生成。因此不要计算主体长度的, 这个参数必定要省略 。 不放cookie会报错 ,放了cookie通过测试你会发现有些能够该甚至无关紧要,有些必须听从其样式。而 cookie 中必须听从的就是 OUTFOX_SEARCH_USER_ID=-1053218418@117.136.67.240
即 数字+@+ip形式地址
。多是为了检验而用,这个能够直接进行模拟。
请求代码
返回结果是一串json,直接拿便可!
import requests import hashlib import time import urllib.parse # 建立md5对象 def nmd5(str): m = hashlib.md5() # Tips # 此处必须encode # 若写法为m.update(str) 报错为: Unicode-objects must be encoded before hashing # 由于python3里默认的str是unicode # 或者 b = bytes(str, encoding='utf-8'),做用相同,都是encode为bytes b = str.encode(encoding='utf-8') m.update(b) str_md5 = m.hexdigest() return str_md5 def formdata(transtr): # 待加密信息 headerstr = '5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36' #print(round(time.time()*1000)) bv=nmd5(headerstr) ts=str(round(time.time()*1000)) salt=ts+'90' strexample='fanyideskweb'+transtr+salt+'n%A-rKaT5fb[Gy?;N5@Tj' sign=nmd5(strexample) #print(sign) i=len(transtr) #print(i) # print('MD5加密前为 :' + headerstr) # print('MD5加密后为 :' + bv) dict={'i':transtr,'from':'AUTO','TO':'AUTO','smartresult': 'dict', 'client':'fanyideskweb', 'salt':salt, 'sign':sign, 'ts':ts, 'bv':bv, 'doctype':'json', 'version':'2.1', 'keyfrom':'fanyi.web', 'action':'FY_BY_REALTlME' } return dict url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule' header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36', 'Referer':'http://fanyi.youdao.com/', 'Origin': 'http://fanyi.youdao.com', 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8', 'X-Requested-With':'XMLHttpRequest', 'Accept':'application/json, text/javascript, */*; q=0.01', 'Accept-Encoding':'gzip, deflate', 'Accept-Language':'zh-CN,zh;q=0.9', 'Connection': 'keep-alive', 'Host': 'fanyi.youdao.com', 'cookie':'_ntes_nnid=937f1c788f1e087cf91d616319dc536a,1564395185984; OUTFOX_SEARCH_USER_ID_NCOO=; OUTFOX_SEARCH_USER_ID=-10218418@11.136.67.24; JSESSIONID=; ___rl__test__cookies=1' } input=input("请输入翻译内容:") dict=formdata(input) dict=urllib.parse.urlencode(dict) dict=str(dict) #dict=urllib.parse.urlencode(dict).encode('utf-8') req=requests.post(url,data=dict,headers=header) val=req.json() print(val['translateResult'][0][0]['tgt'])
执行结果
就这样,咱们从0开始 优雅
的揭开有道翻译的面纱!你能够利用这个作一些有趣的事情( 待续
------)