为何你会被限制登陆网页版微信？

时间 2020-05-10

标签为何会被限制登陆网页微信栏目 HTML 繁體版

原文原文链接

有一个词叫作“三月爬虫”，指的是有些学生临到毕业了，须要收集数据写毕业论文，因而在网上随便找了几篇教程，学了点requests甚至是urllib和正则表达式的皮毛，就开始写爬虫疯狂从网上爬数据。这些爬虫几乎没有作任何隐藏本身的举动，不换IP，不设置headers，不限制速度，极易被有反爬的网站封锁，极易给没反爬的小网站形成流量压力。正则表达式

后来，他们又不知道看了哪篇文章，知道要使用代理IP，要修改UserAgent。因而，他们真的就只在headers设置UserAgent，其余项一律不设置。你给他指出来，他还振振有词：你看我这样能爬到数据啊，headers里面其余项目没有用。浏览器

事实真的是这样吗？微信

咱们来作个实验，首先使用Chrome访问httpbin.org/headers 这个网站能够显示当前你的headers。运行效果以下图所示：网络

而后，再使用requests不设置headers请求这个URL，运行效果以下图所示：网站

最后，咱们仅仅设置一个UserAgent看看效果：url

能够看出来，仅仅设置一个UserAgent，与用浏览器访问的 Headers 仍是有不少不同的地方。缺了不少项。网站只须要检测缺的这几项，就能肯定你是用程序发起的请求仍是用浏览器发的请求。代理

说回微信网页版的问题。不少人使用wxpy或者itchat这种第三方库经过Python控制本身的微信号，实现不少自动化操做。但不久之后就反馈说本身被限制登陆网页版微信了，觉得是否是本身的行为被微信发现了，例如一秒钟内发了几十条消息，或者同时回复了好几我的的消息。code

但我要说的是，大家过高估本身了，微信要发现大家，根本就不用这么麻烦。它直接检查headers就能够了。cdn

咱们来看一下wxpy的源代码中，涉及到网络请求的地方：blog

wxpy是基于itchat二次开发的，登陆功能是经过 itchat 来实现的。咱们再来看看itchat里面发起网络请求的地方：

其中的 self.core.s就是一个 requests 的 Session，以下图所示：

看到了吗？这两个库，他们在headers里面只放了UserAgent，其余字段都没有放。因此在你登陆的瞬间，微信就已经知道你这个帐号没有用浏览器登陆了！

因此，那些用了wxpy或者itchat就被限制登陆网页版微信的人，不要怀疑，大家就是被这两个库给害了。这两个库里面涉及到网络请求的相关代码，水平一看就是一个学了两三天爬虫的人写出来的代码。

你用这两个库就是让你的微信号去送死。

不只仅是这两个库，咱们再看看不少人使用的Python 弹幕包，更夸张，在获取斗鱼直播信息的时候，直接用requests请求网址，连headers都没有设置，以下图所示：

这纯粹就是送死行为。

如今大网站的机器行为对抗团队通常会把检测爬虫与封禁爬虫分开。由于反爬虫策略多了之后，不可避免存在误伤的状况，为了尽量下降误伤率，检查爬虫时会对请求的可疑性进行打分，当你出现疑似爬虫行为时，给你的请求加上一些分数，某些行为分数高，某些行为分数低。当你总积分达到必定程度时，再调用封禁的流程。

因为 HTTP是无状态的，若是你要爬的网站不须要登陆，那么也许你频繁更换 IP 有用。

可是对于微信这种须要登陆的状况，你的全部可疑行为的积分都会直接关联到你的这个帐号上。因而，一开始可能你用 wxpy 登陆网页版微信没问题，这个时候你的可疑性积分还不够高，可能确实有一些老古董浏览器的 Headers 就是少了不少项？可是你已经在怀疑名单里面了。一旦你又出现了其余可疑行为致使可疑性积分继续增长，那么当微信已经能够100%确信你就是用的自动化程序登陆网页版微信的时候，封禁你就是天然而然的事情了。