请先安装爬虫软件。爬虫软件安装html
通过上个教程小试牛刀以后就能够尝到得到数据的喜悦了。ide
回顾一下,上个教程主要了解了MS谋数台的工做职责-定义采集规则,测试规则无误以后点击MS谋数台右上角的“爬数据”后弹出DS打数机,而后看到打数机窗口正在快马加鞭地抓取数据。这两个部件的工做配合地很紧密。测试
在学会将xml文件转成Excel以前,先解决当下的一个疑问?若是要采集其余博主主页的微博,是要从新作过规则吗?非也~xml
用MS谋数台制定采集规则用了一个样本网址,既然是样本,可想而知,与样本相同结构的网页,均可以套用该规则进行采集了。htm
为一个采集规则添加一个相同结构的网址就是给该规则添加一个线索。blog
之后用该规则抓取数据的时候就会运行全部的线索而不单单是样本网址。教程
前一个教程采集微博博主主页是将宝宝主页的网址做为样本网址来制定采集规则的。宝宝以前参加过很火的《奔跑吧兄弟》,如今我想采集兄弟团全部成员的微博主页,只要将他们主页网址当成新的线索添加给以前作的“weibo_博主主页”采集规则就OK了。get
第一季兄弟团各个成员的主页网址以下:微博
先进入集搜客官网,登陆后点击右上角本身的用户名以后进入会员中心>爬虫管理>规则管理,点击主题名,进入线索管理页面。入门
看到“weibo_博主主页”下只有样本网址这一条线索。
点击“添加线索”,输入线索网址后保存。
用Excel存储线索网址
点击“批量导入线索”,添加附件,点击“批量导入”后添加成功!
添加了6条,加上原来的一个样本网址,总共7条线索,如今都是“待抓取”状态。
在这个页面,除了添加线索、还能够激活、去活以及删除线索。
运行采集规则就是运行规则里头的线索。
由上图可知,如今“weibo_博主主页”这个规则中有7条线索,都是“待抓取”状态。运行这些线索要在DS打数机启动。
打开DS打数机,搜索出要运行的规则,点击“单搜”或者“集搜”均可以启动DS打数机进行抓取数据。
单搜:在当前DS窗口采集;集搜:弹出新的窗口采集。
点击集搜后,待抓取线索有几条就输入几条,点击肯定。
咱们看到DS打数机立刻在运行抓取了。
若是不知道待抓取线索有多少条,在DS打数机右击统计线索就能够了。
刚刚运行了“weibo_博主主页”这个采集规则,在会员中心看到这7条线索都是“抓取完成”的状态。
若是按上面的步骤在DS打数机中再次运行规则,这时候会提示没有线索了,那是由于刚刚已经运行这7条线索了。
要从新抓取这些线索只要从新将这些线索激活就能够了,激活之后这些线索的状态将会变成“待抓取”。
激活有两种方法——
在规则管理选择要激活的线索后点击“激活”按钮。
到这里,看看刚刚运行“weibo_博主主页”这个采集规则的结果文件吧~
下一期将讲结果文件转成Excel,学完下一期你就已经入门了,只要不是复杂的网页你均可以采集了,所向披靡,是否是很激动。