1. 下载火蜘蛛采集器php
火蜘蛛采集器下载地址:html
http://firespider.duapp.com/FireSpiderWeb/index.htmlapache
2.安装json
火蜘蛛采集器包含了一个客户端和一个服务端安装包。安装很是方便,一路下一步就能够安装完成。具体安装步骤能够参考它提供的安装手册。浏览器
3.启动tomcat
启动服务端:在桌面有个快捷方式“Fire Spider Server Startup”,右键-》以管理员身份运行。app
启动客户端:双击桌面快捷方式“FireSpider”ide
4.试用oop
安装以后默认已经包含了几个采集任务了。打开客户端,以下图所示,选中一个任务后点击“执行采集”。post
能够看到采集开始执行了。
若是须要中止采集,选中采集任务,点击“执行采集”按钮旁边的“退出”。
5.创建新百伦任务
安装以后默认已经包含了一个采集骆驼天猫店的任务——“骆驼-列表页”。咱们只要参考这个,建一个本身的任务就能够了。好比我要采集 “新百伦旗舰店”,在天猫搜索“新百伦”进入新百伦天猫店,找到新百伦的列表页,连接是这样的:
http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274
接下来建一个采集新百伦的任务
在浏览器输出 http://localhost:8090/FireSpider/html/index.html 打开管理中心
新建一个任务,除了“任务名称”,“连接”,“数据上传连接”,其实都跟“骆驼-列表页”同样就好了。连接填写刚才的新百伦列表页的连接。
注意“数据上传连接” 字段:这个是采集器在采集到数据的时候,会把数据往这个连接以POST方式推送。由于采集器并不知道咱们拿采集到的数据有什么用,只好把数据交给咱们本身处理。咱们能够在本地开一个REST服务,apache, tomcat, iis什么的均可以。
这里“数据上传连接” 咱们填写 “http://localhost/myphp/index.php”,这里咱们用的是PHP。待会会讲一个这个PHP脚本。
若是只是体验一下采集,“数据上传连接”也能够留空。
点击保存
6. 搭建WAMP
若是你不须要本身处理采集到的数据,这一步并非必须的。这里讲的是PHP自定义采集数据处理,其它语言也能够略过。
6.1 安装wamp
这个无需多言,也是一直下一步就能够了。
6.2 创建Alias
输入alias名称
输入alias对应的目录
6.3 index.php脚本
7. 采集新百伦
任务创建后就能够开始采集了。打开采集器客户端,在任务标签页,选中咱们刚才新建的“新百伦”,点击“执行采集”
采集开始后,咱们就能够在e:/test/ 下的josn-xxx.txt看到采集到的数据啦。