python3编写网络爬虫19-app爬取

时间 2019-12-20

标签 python3 python 编写网络爬虫 app 栏目 Python 繁體版

原文原文链接

1、app爬取html

前面都是介绍爬取Web网页的内容，随着移动互联网的发展，愈来愈多的企业并无提供Web页面端的服务，
而是直接开发了App，更多信息都是经过App展现的python

App爬取相比Web端更加容易反爬虫能力没有那么强，并且数据大多数是以JSON形式传递的解析更加简单git

在Web端咱们能够经过浏览器开发者工具监听到各个网络请求和响应过程在App端查看内容就须要抓包软件
例如 WireShark Fiddler Charles mitmproxy AnyProxy等它们原理基本相同github

能够经过设置代理的方式将手机处于抓包软件的监听下就能够看到App运行过程当中发生的全部请求和响应
至关于分析Ajax同样web

若是参数程序是有规律的直接用程序模拟爬取便可
若是没有规律能够经过mitmdump 对接Python脚本处理response api

若是须要自动化可使用Appium浏览器

1.charles的使用服务器

简介：是一个网络抓包工具能够用它来作app抓包分析相似Web浏览器的开发者工具微信

安装官网：cookie

https://www.charlesproxy.com

下载地址：

 https://www.charlesproxy.com/dowload

默认安装便可

charles 是收费软件免费试用30天

证书配置

如今不少页面都在向HTTPS方向发展 HTTPS通讯协议应用愈来愈普遍若是一个App通讯应用了HTTPS协议
那么它的通讯数据都会被加密常规的截包方法没法识别内部数据

须要配置SSL证书

Charles是运行在PC端的抓取的是App端的数据因此PC和移动端都要安装证书

PC端安装证书

打开charles 点击Help -> SSL Proxying -> Install Charles Root Certificate 进入安装证书的页面

点击安装证书点击下一步选择将全部证书放入下列存储点击浏览选择存储位置为受信任的根证书颁发机构点击肯定

若是报错存储已满或者只读解决办法

win+R 输入mmc 点击文件添加删除管理单元
点击证书点击添加选择计算机帐户下一步肯定

从新导入证书

移动端安装证书

首先保证手机和电脑在同一局域网（有网线的状况下）手机设置选择wifi 手动代理添加charles的ip和端口
设置完电脑会弹出是否信任此设备点击allow便可

手机浏览器（尽可能不要用默认的浏览器可使用QQ浏览器）打开chls.pro/ssl 给证书添加个名字点击肯定就能完成证书的安装

手机访问互联网数据包会流经charles charles再转发数据包到真实服务器服务器在返回数据包流经charles
在转发给手机

设置好charles而且配置好证书

示例打开京东选一个商品打开商品评论页面不断下拉加载评论

左侧会有一个api.m.jd.com 点击其中一条切换到contents选项卡能够看到JSON数据核对结果和app上看到的内容一致
这样就捕获到了在上拉刷新的请求和响应内容

重发 charles另外一个强大功能能够将捕获的请求加以修改并从新发送

能够用来作调试

2.mitmproxy的使用

是一个支持HTTP和HTTPS的抓包程序相似Fiddler charles 只不过是一个控制台形式操做

mitmproxy还有两个相关组件 mitmdump 命令行接口利用它能够对接python脚本
另外一个是mitmweb 一个web程序经过它能够清楚观察捕获的请求

安装

下载地址：

https://github.com/mitmproxy/mitmproxy/releases

默认安装便可

证书配置

启动mitmdump 找到mitmproxy文件下ca证书双击mitmproxy-ca.pl2 默认下一步便可
选择将全部证书放入下列存储点击浏览选择存储位置为受信任的根证书颁发机构点击肯定

手机将文件发送到手机点击安装

经过手机微信助手发送 mitmproxy-ca-cert.cer 手机点击wifi 高级设置安装证书默认download 返回上一级内部存储空间

tencent -> MicroMsg -> Download 点击安装

运行 mitmdump 是mitmproxy的命令行接口同时能够对接python脚本

示例：

可使用命令启动mitmproxy 例如 mitmdump -w outfile 截获的数据都会被保存到此文件中

指定脚原本处理截获的数据使用-s参数

mitmdump -s test.py

脚本文件内容以下

def request(flow):
flow.request.headers['User-Agent'] = 'MitmProxy'
print(flow.request.headers)

这里定义一个request（）方法参数为flow 经过request属性获取当前请求对象打印输出请求的请求头
将User-Agent修改为了MitmProxy

手机端访问 http://httpbin.org/get

日志输出

mitmdump 提供了专门的日志传输系统能够设定不一样颜色输出结果修改脚本以下：

确保安装好mitmproxy pip install mitmproxy

from mitmproxy import ctx

def request(flow):
flow.request.headers['User-Agent'] = "MitmProxy"
ctx.log.info(str(flow.request.headers))#输出白色
ctx.log.warn(str(flow.request.headers))#输出黄色
ctx.log.error(str(flow.request.headers))#输出红色

request

示例

from mitmproxy import ctx

def request(flow):
　　request = flow.request
　　info = ctx.log.info
　　info(request.url)
　　info(str(request.headers))
　　info(str(request.cookies))
　　info(request.host)
　　info(request.method)
　　info(str(request.post))
　　info(request.scheme)

修改脚本手机打开百度分别输出请求连接请求头 cookies host 请求方法端口协议

同时还能够对任意属性进行修改就像最初修改Headers同样直接赋值

示例：

def request(flow):
　　url = 'https://httpbin.org/get'
　　flow.request.url = url

更多属性参考 http://docs.mitmproxy.org/en/latest/scripting/api.html

响应

response() 方法

示例：

from mitmproxy import ctx

def response(flow):
　　response = flow.response
　　info = ctx.log.info
　　info(str(response.status_code))
　　info(str(response.headers))
　　info(str(response.cookies))
　　info(str(response.text))

打印出响应状态码 headers cookies 网页源代码等