微信公众号爬虫

一、公众号抓取来源

1、搜狗预览器抓取:公众号搜索功能,不过现在已经关闭入口了。

2、通过个人公众号来抓取微信文章,缺点cookies易过期,且频率过高时会进行封账号处理。

3、通过监听微信app公众号插入数据库操作进行监听,获取公众号信息发送到自建服务器上,优点是实时性强,且抓取链接为永久链接。

二、分析微信数据库结构

微信数据库采用sqlite存储在本地目录为:/data/data/com.tencent.mm/MicroMsg/{$目录}/EnMicroMsg.db

目录为最长的那个

EnMicroMsg.db为微信最主要的数据库,里面包含头像信息,好友列表,微信信息排列顺序,微信聊天记录,表情之类的数据。

EnMicroMsg.db 密码解析