抖音数据采集教程，初级版

时间 2020-12-22

标签 python web 数据库 json windows centos 浏览器缓存网络架构栏目网络爬虫繁體版

原文原文链接

这段时间一直在处理数据采集的问题，目前平台数据采集趋于稳定，能够抽出时间来整理一下近期的成果，顺便介绍一些近期用到的技术。本篇文章偏向技术，须要读者有必定的技术基础，主要介绍数据采集过程当中用到的神器mitmproxy，以及平台的一些技术设计。如下是数据采集总体的设计，左边是客户机，在里面放置了不一样的采集器，采集器发起请求以后，经过mitmproxy访问抖音，等数据回传以后，经过中间的解析器对数据进行解析，最后分门别类的存储到数据库中，为了提高性能，在中间加入了缓存，把采集器和解析器分隔开，两个模块之间工做互不影响，能够最大限度的把数据入库，下图为第一代架构设计，后续会有一篇文章介绍平台架构设计的三代演化史。
python

准备工做

开始进入数据采集的准备工做，第一步天然是环境搭建，本次咱们在windows环境下，采用python3.6.6环境，抓包和代理工具是mitmproxy，也可使用Fiddler抓包，采用夜神模拟器来模拟安卓运行环境（也能够用真机），此次主要经过手动滑动app来抓取数据，下次介绍采用Appium自动化工具，实现数据采集的全自动（解放双手）。
一、安装python3.6.6环境，安装过程可自行百度，须要注意的是，centos7自带的是python2.7，须要升级到python3.6.6环境，升级以前主要先安装ssl模块，不然升级好的版本没法访问https的请求。
二、安装mitmproxy，安装好python环境后，在命令行执行pip install mitmproxy安装mitmproxy，注：windows下只有mitmdump和mitmweb可使用，安装好后在命令行输入mitmdump便可启动，默认启动的代理端口为8080。
三、安装夜神模拟器，能够在官网下载安装包，安装教程自行百度便可，基本都是下一步。安装好夜神模拟器以后，须要对夜神模拟器进行配置。首先须要设置模拟器的网络为手动代理，IP地址为windows的IP，端口为mitmproxy的代理端口。

四、接下来是证书的安装，打开模拟器中的浏览器，输入地址mitm.it，选择对应版本的证书，安装好后，就能够进行抓包了。

五、安装app，app安装包能够到官网下载，而后经过拖拽进模拟器就能够安装，或者在应用市场进行安装。
至此，本次数据采集环境就所有搭建完成。web

数据接口分析抓包

搭建好环境以后就开始对抖音app进行数据抓包，分析出每一个功能所使用的接口，本次以采集视频数据接口为例介绍。
关闭以前打开的mitmdump，从新打开mitmweb工具，mitmweb是一个图形化的版本，就不用对着黑框框找了，以下图：

启动以后打开模拟器的抖音app，能够看到已经有数据包解析出来了，而后进入用户主页，开始下滑视频，在数据包列表中能够找到请求视频数据的接口https://aweme.snssdk.com/aweme/v1/aweme/post/

能够在右边看到接口的请求数据和响应数据，咱们将响应数据复制出来，进入下一步解析。
数据库

数据解析

经过mitmproxy和python代码的结合，咱们就能够在代码中获取到mitmproxy中的数据包，进而能够按照需求来处理。新建一个test.py文件，里面放两个方法：json

def request(flow):
    pass

def response(flow):
    pass

见名知意，这两个方法，一个是在请求的时候执行的，一个是在响应的时候执行，而数据包则存在于flow当中。经过flow.request.url能够获取到请求url，flow.request.headers能够获取到请求头信息，flow.response.text中的就是响应的数据了。windows

def response(flow):
    if str(flow.request.url).startswith("https://aweme.snssdk.com/aweme/v1/aweme/post/"):
        index_response_dict = json.loads(flow.response.text)
        aweme_list = index_response_dict.get('aweme_list')
        if aweme_list:
            for aweme in aweme_list:
                print(aweme)

这个aweme就是一个完整的视频数据了，能够根据须要提取里面的信息，这里提取部分信息作介绍。centos

"statistics":{
    "aweme_id":"6765058962225204493",
    "comment_count":24,
    "digg_count":1465,
    "download_count":1,
    "play_count":0,
    "share_count":3,
    "forward_count":0,
    "lose_count":0,
    "lose_comment_count":0
}

statistics信息就是这个视频的点赞，评论，下载，转发的数据。
share_url为视频的分享地址，经过这个地址，能够在PC端观看抖音分享的视频，也能够经过这个连接解析到无水印视频。
play_addr为视频的播放信息，其中的url_list即为无水印地址，不过目前官方作了处理，这个地址没法直接播放，也有时间限制，超时以后连接就失效了。
有了这个aweme，就能够把里面的信息解析出来，保存到本身的数据库，或者下载无水印视频，保存到本身电脑了。
写好代码以后，保存test.py文件，cmd进入命令行，进入到保存test.py文件目录下，在命令行输入mitmdump -s test.py，mitmdump就启动了，此时打开app，开始滑动模拟器，进入用户主页：

开始不断下滑，test.py文件就能够把抓取到的视频数据所有解析出来了，如下是我截取的部分数据信息：
视频信息：

视频统计数据：

视频评论数据：

无水印视频下载：

本次介绍就到这里结束了，主要是运用mitmdump配合python代码来解析数据，下次讲讲怎么运用appium，怎么实现自动化滑动模拟器，实现这个程序的全自动抓取视频数据，以及把采集下来的数据进行处理以后，获得的一些成果展现。
浏览器

更多抖音，快手，小红书数据实时采集接口，请查看文档： TiToData缓存

抖音数据采集教程，初级版

准备工做

数据接口分析 抓包

数据解析

数据接口分析抓包