Python爬虫之微信公众号(一)

以前有位朋友,据说是搞科研的,须要一些公众号的文章数据,特别是须要拿到含有关键字为“武汉“的公众号的文章。因此今天就写了一个爬虫爬取微信公众号的文章git

1、大多数的爬取思路

如今,咱们开始切入正题。我爬取公众号文章的方式和别人的方法可能不太同样,可是原理基本上是相通的。有些朋友多是经过抓包的方式获取,有些朋友可能会经过搜狗微信获取,由于搜狗和微信有合做关系吧。github

2、我的爬取思路介绍

如今来介绍个人方法。首先能够先申请一个微信公众号,而后新建图文,点击超连接。操做以下图所示:json

 

 

3、分析网站数据包

接下来就来分析网络数据了。打开开发者工具,点击network,操做步骤以下图所示:微信

 

输入武汉,点击搜索网络

 

点击《武汉发布》这个公众号工具

 

到这里你会发现,当点击搜索时会出现两个数据包,那么到底哪个才是有用的呢?学习

从上图,咱们能够发现真正的有效数据在哪里。点击preview,能够发现不少的json格式的数据,里面有不少的信息,固然包括了咱们须要的文章标题与文章的连接测试

4、headers信息分析

接下来要作的就是观察headers信息。网站

 

从上图,咱们能够看到,爬取该公众号文章须要使用到的参数有哪些,既然知道了这些就真的够了吗?blog

也许不够哦!!

接下来,咱们选择点击下一页

 

看看刚刚那些参数会不会有什么变化

 

我发现,有多出一个相同的接口,可是begin参数由0变为了5.那么从后续的测试当中发现它的规律是:0、五、十、15...

5、代码分析

基本上将网站分析完毕了那么就开始上代码吧。

首先构造请求头和查询参数

 

6、获取json数据

接下来要作的就是获取json数据

 

7、保存数据

获取到了json数据并提取到title和link以后,接下就是保存数据了。

 

最后结果如图所示:

本期完整代码已经上传到网盘,如今只是爬取到标题和连接,下一篇文章将讲解如何根据连接来获取公众号文章。

要获取本期源代码,只需在公众号回复:微信公众号爬虫1

下一篇结束以后将会把代码上传到github。敬请期待!!

  致谢

好了,到这里又要跟你们说再见的时候了。但愿个人文章能带给您知识,带给您帮助!同时也谢谢您能抽出宝贵的时间阅读,创做不易,若是您喜欢的话,点个关注再走吧。您的支持是我创做的动力,但愿从此能带给你们更多优质的文章。

偶然在这相遇就是一种缘分,若是您以为本文可以帮助到您,

那么我但愿可以获得您的一丝确定。

这份赞扬也许没必要花费您一杯奶茶钱就可以学习到丰富的知识

天天学习一点点,进步大一点。