随着大数据和社交网络的火爆发展,社交网络上产生的数据也愈来愈有价值,特别是微博微信做为时下最火热的社交平台,若是能对这两个平台上的数据进行深刻分析挖掘,那么价值将很是巨大, 要采集的数据为指定城市的全部微博用户的相关信息。好比微博名称,微博地址,微博数量,粉丝数量,名片等等,进入正题,看看具体一步一步怎么操做来实现的。服务器
打开八爪鱼采集器,新建一个任务以后,以下图选择分组:新浪微博,这里其实随便什么分组均可以,我是把新浪微博专门放了一个分组,以便管理采集微博的多个任务。任务名称,这里按照本身的状况输入便可,我这里采集的是沈阳的微博信息。而后输入备注。微信
而后就到了设计采集流程的界面,这个界面看起来复杂,其实很简单,咱们先看上面一半,包括第一个 Go to Web Page, 和Check Condition 里面的所有流程步骤。其实他们完成一个什么工做呢?就是打开微博登陆页面,而后检查用户是否登陆,若是没有登陆,则走左边流程,三步:输入用户名,输入密码,点击登陆。若是已经登陆,则走右边流程:什么事情都不作。为何须要登陆呢,若是不登陆,则只能看到一页数据,登陆后就能看全部数据,因此咱们想要采集全部数据,就要登陆。下半部分流程因截图不全,因此请你们看第三步。网络
接上一步,这里看下半部分流程,下半部分第一步是打开沈阳用户列表,而后是一个Loop循环:循环翻页,由于咱们要采集全部页面的数据,在这个循环内部,还有一个循环:循环当前页全部用户,这样就能采集到一个页面的多个用户的数据,微博一页有20个用户的数据。这个循环内部有一个提取数据的步骤,这一步就是真正提取数据,不过他提取的是当前循环用户的数据。咱们只须要在页面上点击要采集的数据,系统就会自动配置好,因此这一步很容易。oop
配置好采集规则以后,咱们设定执行计划,这里由于我须要每周采集一次,以获取到这一周新注册的微博用户,因此我选择一周一次,注意这个定时是云采集的,意思是,他会在八爪鱼采集器的云服务器跑,并且启动时间如图,咱们定的是周一夜0点,固然这个时间你能够本身定。因此咱们电脑不用每周一夜0点打开去采集,咱们配好就无论了,之后每一个周一0点,八爪鱼云采集服务器都会自动启动个人任务进行采集。测试
通过以上几个步骤就算配置好了,咱们下一步,进行一个测试,从图中能够看到已经顺利采集到了数据,当采集完成以后,便可导出为Excel等使用了。大数据