以前有位朋友,据说是搞科研的,须要一些公众号的文章数据,特别是须要拿到含有关键字为“武汉“的公众号的文章。因此今天就写了一个爬虫爬取微信公众号的文章git
如今,咱们开始切入正题。我爬取公众号文章的方式和别人的方法可能不太同样,可是原理基本上是相通的。有些朋友多是经过抓包的方式获取,有些朋友可能会经过搜狗微信获取,由于搜狗和微信有合做关系吧。github
如今来介绍个人方法。首先能够先申请一个微信公众号,而后新建图文,点击超连接。操做以下图所示:json
接下来就来分析网络数据了。打开开发者工具,点击network,操做步骤以下图所示:微信
输入武汉,点击搜索网络
点击《武汉发布》这个公众号工具
到这里你会发现,当点击搜索时会出现两个数据包,那么到底哪个才是有用的呢?学习
从上图,咱们能够发现真正的有效数据在哪里。点击preview,能够发现不少的json格式的数据,里面有不少的信息,固然包括了咱们须要的文章标题与文章的连接测试
接下来要作的就是观察headers信息。网站
从上图,咱们能够看到,爬取该公众号文章须要使用到的参数有哪些,既然知道了这些就真的够了吗?blog
也许不够哦!!
接下来,咱们选择点击下一页
看看刚刚那些参数会不会有什么变化
我发现,有多出一个相同的接口,可是begin参数由0变为了5.那么从后续的测试当中发现它的规律是:0、五、十、15...
基本上将网站分析完毕了那么就开始上代码吧。
首先构造请求头和查询参数
接下来要作的就是获取json数据
获取到了json数据并提取到title和link以后,接下就是保存数据了。
最后结果如图所示:
本期完整代码已经上传到网盘,如今只是爬取到标题和连接,下一篇文章将讲解如何根据连接来获取公众号文章。
要获取本期源代码,只需在公众号回复:微信公众号爬虫1
下一篇结束以后将会把代码上传到github。敬请期待!!
好了,到这里又要跟你们说再见的时候了。但愿个人文章能带给您知识,带给您帮助!同时也谢谢您能抽出宝贵的时间阅读,创做不易,若是您喜欢的话,点个关注再走吧。您的支持是我创做的动力,但愿从此能带给你们更多优质的文章。
偶然在这相遇就是一种缘分,若是您以为本文可以帮助到您,
那么我但愿可以获得您的一丝确定。
这份赞扬也许没必要花费您一杯奶茶钱就可以学习到丰富的知识
天天学习一点点,进步大一点。