搜狗微信采集 —— python爬虫系列一

时间 2019-11-07

标签搜狗微信采集 python 爬虫系列栏目网络爬虫繁體版

原文原文链接

　　前言：一觉睡醒，发现原有的搜狗微信爬虫失效了，网上查找一翻发现10月29日搜狗微信改版了，没法经过搜索公众号名字获取对应文章了，不过经过搜索主题获取对应文章仍是能够的，问题不大，开搞！javascript

　　目的：获取搜狗微信中搜索主题返回的文章。css

　　涉及反爬机制：cookie设置，js加密。html

　　完整代码已上传本人github（今晚放出），仅供参考。若是对您有帮助，劳烦看客大人给个星星！java

　　进入正题。python

流程一：正常套路流程

　　打开搜狗微信，在搜索框输入“咸蛋超人”，这里搜索出来的就是有关“咸蛋超人”主题的各个公众号的文章列表：git

　　按照正常的采集流程，此时按F12打开浏览器的开发者工具，利用选择工具点击列表中文章标题，查看源码中列表中文章url的所在位置，再用xpath获取文章url的值，也就是这个href的值，为避免混乱，咱们称之为“列表页面的文章url”。github

　　能够看到“列表页面的文章url”须要拼接，通常这种状况须要在浏览器中正常访问一下这篇文章，对比观察跳转后的url（咱们称之为“真实的文章url”），再缺头补头缺脚补脚便可。下面是两个url的对比：web

列表页面的文章url：
/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgSwqn5HZrcjUNFzn4G2S0Yt3MduzuCU92ulqXa8Fplpd9CqUiLuEm9hLLvBiu5ziMS196rgHYb-GzQfleG917OgwN_VAAdAZHKryCeU9lIxtWTKnLsDcsuPIjLhLEK3tbGSa3_pkMzadQg75Zhmxb9YI0psZvVepKtN4hpzQgtGa2iOlKKLwV_oxooGE6sxg1qinKxTb5VwJUcLBM1RgkzAPRtmyIGw2VAg..&type=2&query=%E5%92%B8%E8%9B%8B%E8%B6%85%E4%BA%BA&k=92&h=z

真实的文章url：
https://mp.weixin.qq.com/s?src=11&timestamp=1573092595&ver=1959&signature=FjD709D-0vHSyVgQyXCS-TUAcnT0M9Gx6JljQEb6O55zpuyyDaTHqgkRCxNDtt5ZDifDRUUBOemzxcz71FMOmO88m6RWfR0r4fFBe0VefAsjFu0pl-M0frYOnXPF5JD8&new=1

　　这里很明显两个url的路径不一致，应该是中间通过了一些调转，python的requests库是带自动调转功能，咱们先把域名https://mp.weixin.qq.com补上试一下访问浏览器

　　明显这里作了反爬限制，那么这里开始，咱们就须要抓包分析了。这里用到的工具是Firefox浏览器的开发者工具。抓包观察的是从搜索结果页面列表文章点击跳转到文章页面的过程，这里点击文章超连接会在新窗口打开，咱们只须要在网页源码中把对应a标签的target属性改成空，就能够在一个窗口中观察整个流程的数据包了。微信

流程二：抓包分析之跳转实现

　　抓包分析：

　　经过抓包咱们能够找到搜索结果页面跳转到文章页面的过程，这里观察发现，“列表页面的文章url”返回的结果中就包含了“真实的文章url”的信息，这意味着咱们只须要正确访问到“列表页面的文章url”，根据返回的数据就能拼接出“真实的文章url”并访问了，这样咱们就实现从“列表页面的文章url”到“真实的文章url”的跳转了！

流程三：抓包分析之手动获取的“列表页面的文章url”没法访问分析

　　此时咱们的目标就从获取“真实的文章url”转变到正确的访问“列表页面的文章url”了，继续分析抓包数据中的“列表页面的文章url”信息：　　

抓包数据：
　　url：https://weixin.sogou.com/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgSwqn5HZrcjUNEnNekGBXt9LMduzuCU92ulqXa8Fplpd9CqUiLuEm9hLLvBiu5ziMS196rgHYb-GzQfleG917OgwN_VAAdAZHKryCeU9lIxtWTKnLsDcsuPIjLhLEK3tbGaBLLLEV3E0vo604DcwbvX2VNudQZNnBemevd34BJP94ZL5zUiA49LgzIjRlpGxccVxTTaLhHZKstaeqw41upSVAe0f8bRARvQ..&type=2&query=%E5%92%B8%E8%9B%8B%E8%B6%85%E4%BA%BA&k=60&h=U
　　method：GET
　　请求参数：{"url":"dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgSwqn5HZrcjUNEnNekGBXt9LMduzuCU92ulqXa8Fplpd9CqUiLuEm9hLLvBiu5ziMS196rgHYb-GzQfleG917OgwN_VAAdAZHKryCeU9lIxtWTKnLsDcsuPIjLhLEK3tbGaBLLLEV3E0vo604DcwbvX2VNudQZNnBemevd34BJP94ZL5zUiA49LgzIjRlpGxccVxTTaLhHZKstaeqw41upSVAe0f8bRARvQ..","type":"2","query":"咸蛋超人","k":"60","h":"U"}
　　headers：
　　　　Host: weixin.sogou.com
　　　　User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0
　　　　Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
　　　　Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2
　　　　Accept-Encoding: gzip, deflate, br
　　　　Connection: keep-alive
　　　　Referer: https://weixin.sogou.com/weixin?type=2&query=%E5%92%B8%E8%9B%8B%E8%B6%85%E4%BA%BA&ie=utf8&s_from=input&_sug_=n&_sug_type_=1&w=01015002&oq=&ri=1&sourceid=sugg&sut=750912&sst0=1573092594229&lkt=0%2C0%2C0&p=40040108
　　　　Cookie: 见下
　　Cookie：{"ABTEST":"4|1573094886|v1","IPLOC":"CN4401","JSESSIONID":"aaa3VBk4eXnIf8d4bdx4w","SNUID":"57A28ED20A0F9FB2BBE3E0180AF00D25","SUID":"5EAB87DB2613910A000000005DC385E6","SUV":"00F221C2DB87AB5E5DC385E7BC43F633"}

　　这里的重点有三个：

1. 请求参数：对比咱们获取的“列表页面的文章url”分析能够发现，这里多了两个参数“k”、“h”，这是须要咱们设法获取的。
2. headers：通过测试该网站对User-Agent敏感，一次访问先后User-Agent须要一致。
3. Cookie：Cookie中参数须要获取才能正确访问该url。这些参数分别是：ABTEST、IPLOC、JSESSIONID、SNUID、SUID、SUV。

　　3.1：获取参数“k”、“h”

　　按照经验，从一个url转变成另外一个url有两种状况：跳转和javascript字符串处理。通过屡次抓包分析发现，搜索结果页面点击文章超连接到咱们如今的目标url并无存在跳转状况，抓包数据中的“列表页面的文章url”和咱们获取的“列表页面的文章url”能够断定为同一个url，因此猜想为javascript字符串处理。通过一番搜寻，发现搜索结果页面的源码中有一段很是可疑的代码：

<script>
    (function(){$("a").on("mousedown click contextmenu",function(){var b=Math.floor(100*Math.random())+1,a=this.href.indexOf("url="),c=this.href.indexOf("&k=");-1!==a&&-1===c&&(a=this.href.substr(a+4+parseInt("21")+b,1),this.href+="&k="+b+"&h="+a)})})();
</script>

　这其中最重要的代码就是：this.href+="&k="+b+"&h="+a，这代码就是在点击事件发生时给a标签href属性的内容添加"&k="、"&h="，正是用这段代码对该url的参数进行js加密和添加的。咱们只须要把这段代码用python实现就能够解决这个问题了，下面是实现python实现代码：

def get_k_h(url):     
　　b = int(random.random() * 100) + 1
   a = url.find("url=")
   url = url + "&k=" + str(b) + "&h=" + url[a + 4 + 21 + b: a + 4 + 21 + b + 1]
　　reuturn url

　 3.2：获取Cookie的参数

　　观察抓包数据能够发现，当咱们一开始访问时并无带任何cookie，但通过一系列请求，到咱们的目标请求时候，浏览器已经经过前面请求的返回数据包的Set-Cookie属性把Cookie构造出来了，而咱们要作的就是在Cookie构造从无到有这个过程当中找到全部ResponseHeaders中带SetCookie属性的并且参数是咱们须要的参数的请求，并模拟访问一遍，就能获得全部参数并构建出咱们须要的Cookie了。

　　例如搜狗微信搜索接口的请求的ResponseHeaders就有5个Set-Cookie字段，其中ABTEST、SNUID、IPLOC、SUID都是咱们最终构造Cookie所需的参数（和最后的Cookie值对比能够发现，这里的SUID值还不是咱们最终须要的，要在后面的数据包中继续发掘）。

　　通过分析，通过四个请求获取到的ResponseHeaders后咱们就能正确构建Cookie了：

1. 获得ABTEST、SNUID、IPLOC、SUID：
　　https://weixin.sogou.com/weixin?type=2&query=%E5%92%B8%E8%9B%8B%E8%B6%85%E4%BA%BA&ie=utf8&s_from=input&_sug_=n&_sug_type_=1&w=01015002&oq=&ri=1&sourceid=sugg&sut=750912&sst0=1573092594229&lkt=0%2C0%2C0&p=40040108
2. 须要IPLOC、SNUID，获得SUID：
　　https://www.sogou.com/sug/css/m3.min.v.7.css
3. 须要ABTEST、IPLOC、SNUID、SUID，获得JSESSIONID：
　　https://weixin.sogou.com/websearch/wexinurlenc_sogou_profile.jsp
4. 须要IPLOC、SNUID、SUID，获得SUV
　　https://pb.sogou.com/pv.gif

　　这四个请求都能根据前面请求获取到的Cookie参数来构造本身须要的Cookie去正确访问。值得注意的是最后一个请求，除了须要正确拼接Cookie外，还须要获取正确的请求参数才能正常访问：

　　这种找参数的活能够利用浏览器的全局搜索功能，一番搜寻后，就会发如今搜索结果页面的源代码中已经返回了这里所需的全部参数，用正则把这些参数解析出来便可：

　　那么根据这些解析出来的参数和前面三个请求获得的Cookie参数就能正确访问第四个请求并获得所需的全部Cookie参数啦！

流程四：构造正确的请求信息

　　此时，咱们已经分析出全部正确模拟请求的流程了，梳理一下：

获取“k”、“h”参数，传入搜索结果页面获得的“列表页面的文章ur”，调用get_k_h()便可。
获取所需Cookie参数，构造正确的Cookie，按照流程三给出的4个url，分别构造请求获取ResponseHeaders中的SetCookie便可。
构造正确的请求访问“列表页面的文章url”。
根据3中请求返回的数据，拼接出“真实的文章url”，也就是流程二。
请求“真实的文章url”，获得真正的文章页面数据。

　　至此，全部分析结束，能够愉快的码代码啦！

结语：这次采集涉及到的反爬技术是Cookie构造和简答的js加密，难度不大，最重要的是耐心和细心。此外提醒各位看客大人遵循爬虫道德，不要对他人网站形成伤害，peace！