应用商店调研-应用宝

应用宝


背景

  • 国内应用广告主信息的抓取

分析

  • 分类分析
    • 首先从分类上讲,将应用分成了工具类应用和游戏类应用,在应用宝中对应 应用和游戏模块
    • 在工具类和游戏类中又进行了一系列的细分(后续需要与我们的整体分类做映射)
  • 请求分析
    • 在某一分类下打开源代码分析,随着滚动滚动条发现一点点加载应用,确定是异步请求
    • 以请求http://sj.qq.com/myapp/cate/appList.htm?orgame=1&categoryId=0&pageSize=20&pageContext=100为例,其中;
      • orgame1表示工具类应用,2表示游戏类应用
      • categoryId:代表的是细节化的分类的id,在分析其请求时,没发现比较明显的规律,所以在抓取时将id记录在了两个列表中
        • lis1=[-10,122,102,110,103,108,115,106,101,119,104,114,117,107,112,118,111,109,105,100,113,116];工具类应用分类id
        • lis2=[147,121,149,144,151,148,153,146];#游戏类应用分类id
      • pageSize:表示每次请求数量,设置的为20
      • pageContext:偏移量。
  • 响应分析
    • 响应结果是json格式的数据,以下是一条数据的响应结果 {"total":1,"count":1,"obj":[{"description":null,"flag":16533,"fileSize":14352335,"authorId":179,"categoryId":119,"categoryName":"美化","apkMd5":"9CB8B24EFFFAFFF2DC64A88104566D1A","apkUrl":"http://imtt.dd.qq.com/16891/9CB8B24EFFFAFFF2DC64A88104566D1A.apk?fsname=com.tencent.qlauncher.lite_2.1.2_64171102.apk&csr=3554","appDownCount":187774441,"appId":12052257,"appName":"微桌面(智能语音主题壁纸美化锁屏)","authorName":"腾讯公司","iconUrl":"http://pp.myapp.com/ma_icon/0/icon_12052257_1509706295/256","newFeature":"1. 修复了一些已知bug修复;\r\n2. 叮当语音助手性能优化;”,”pkgName":"com.tencent.qlauncher.lite","versionCode":64171102,"versionName":"2.1.2","averageRating":4.324552160168598,"editorIntro":"全新一代智能、高效桌面管理软件","images":["http://pp.myapp.com/ma_pic2/0/shot_12052257_1_1509706292/550","http://pp.myapp.com/ma_pic2/0/shot_12052257_2_1509706292/550","http://pp.myapp.com/ma_pic2/0/shot_12052257_3_1509706292/550","http://pp.myapp.com/ma_pic2/0/shot_12052257_4_1509706292/550","http://pp.myapp.com/ma_pic2/0/shot_12052257_5_1509706292/550"],"apkPublishTime":1509706296,"appRatingInfo":{"averageRating":4.324552160168598,"ratingCount":16133,"ratingDistribution":{"1":1926,"2":297,"3":672,"4":958,"5":12280}},"snapshotsUrl":null,"appTags":null}],"pageContext":"","success":true,"pageSize":null,"msg":"success"}


    • 对响应结果分析,主要抓取以下几项数据
      • appName,应用名称
      • authorName,开发商名称
      • categoryName,类别名称(后续需要映射标号)
      • store_url,应用下载链接
      • pkgName,包名
      • iconUrl,应用图标链接
      • app_category_type,应用所属类型,工具类,游戏类(通过categoryName字段来判断)

抓取逻辑

抓取流程如图



 

逻辑结构如图