经过前两篇文章,咱们深刻论述了后台爬取的痛点,同时提出了对客户端方案可行性的思考。今天咱们就来介绍一下全球第一个客户端爬取平台,今天咱们来揭开它的神秘面纱!javascript
前两篇文章:
一篇文章了解爬虫技术现状
爬虫技术(二)-客户端爬虫java
DSpider是客户端爬取平台台,官网地址:dspider.dtworkroom.com/,如官网说述, DSpider主要由云管理平台、sdk、爬虫商店三部分组成,咱们简单说明一下这三者的各自职责:jquery
dSpider的爬取脚本是动态下发的,云管理平台主要用于配置脚本参数、更新脚本、统计脚本爬取状态、错误分析等。若是你是开发者,那么云管理平台同时也是发布、管理本身脚本的地方。android
sdk负责从云端请求脚本而后执行,最后将爬取结果传给第三方APP. (官方提供了ios和android的sdk,但目前只开放了android sdk)。ios
相似于应用商店,是一个爬虫仓库,开发者能够在里面挑选所需的脚本,也能够将本身的脚本发布到爬虫商店git
咱们以android为例,官方提供了完整的文档及demo:
Android集成文档:dspider.dtworkroom.com/document/an…
Android demo:github.com/wendux/DSpi…github
咱们先来看看官方demo的运行效果:api
爬取简书主页全部文章标题和连接:
session
隐式爬取没有进度条,demo中弹出了一个loading窗做为指示:app
爬取脚本很是简单,咱们看看爬取简书的脚本:
/** * Created by du on 16/11/21. */
dSpider("jianshu", function(session,env,$){
session.showProgress();
var $items=$("div.title");
var count=$items.length;
session.log("共"+count+"条");
session.setProgressMax(count)
session.setProgressMsg("正在初始化");
var i=0;
//模拟进度,每隔200ms向端上传递一次数据
var timer=setInterval(function(){
session.setProgress(i+1);
var title=$items.eq(i).text();
session.setProgressMsg(title);
session.push({title:title, url:$items.eq(i).parent().attr("href")});
if(++i>=count){
clearInterval(timer);
session.finish();
}
},200);
})复制代码
可见爬取脚本很是简单:用jquery解析网页,而后再经过session对象和native 进行交互。详细的API文档请移步dSpider Javascript API文档。