在网上能搜索到的公众号文章采集相关的信息来看来看,这是最多、最直接、也是最简单的一种方案。
通常流程是:git
采集过于频繁的话,搜狗搜索和公众号历史文章列表访问都会出现验证码。直接采用通常的脚本采集是没法拿到验证码的。这里可使用无头浏览器来进行访问,经过对接打码平台识别验证码。无头浏览器可采用selenium。github
即使采用无头浏览器一样存在问题:浏览器
若是坚持使用搜狗入口并想进行完美采集的话只有增长代理IP。顺便说一句,公开免费的IP地址就别想了,很是不稳定,并且基本都被微信给封了。服务器
除了面临搜狗/微信的反爬虫机制以外,采用此方案还有其余的缺点:微信
中间人攻击本是某种黑客手法,用于截取客户端与服务端之间的通讯信息。这种方案的思路是在手机微信和微信服务器之间搭建一个“HTTPS代理”,用于截获手机微信获取的公众号文章信息。通常性步骤是:网络
这种方案可以实现自动化的缘由是:加密
这种方案的优势:lua
固然,也存在不少缺点:代理
这种方案还存在着一些变种,好比:code
但都存在“不能精确稳定控制”的缺点
在被微信反爬虫虐了很长时间以后,和同事大脑风暴寻找新的微信公众号文章爬取方案。就分析有哪些能得到数据的入口。模糊记得网页微信是有公众号文章阅读功能的,正好我曾把玩过一段时间我的微信机器人,主要使用的是ItChat这个Python包。它实现的原理就是对网页微信进行抓包分析,汇总成我的微信接口,目标就是全部网页微信能实现的功能它都能实现。。因此就有了一个初步的方案——经过ItChat让微信公众号文章本身推送过来。快下班的时候和同事提了一下,他也挺感兴趣,次日就实现出来了验证代码(ItChat实现相应功能代码很是简短,内容解析部分以前就作了,能够直接用)。
这种方案的主要流程是:
这种方案的优势是:
固然缺点也是有的:
微信公众号文章采集基本上就是和腾讯斗智斗勇,费心费力。直到如今也没能找到一个完美的解决方案,只能根据实际的采集目标,择优选取。要彻底服务端,不依赖手机微信,不须要点赞数阅读数,有大量代理IP就采用方案一;本地网络稳定且有富裕的手机就用方案二;须要及时得到公众号发布的最新文章的话就用方案三。
写的比较杂乱,见谅!
祝我早点脱坑!