前嗅ForeSpider采集配置界面介绍

今天,小编为你们介绍一下,前嗅ForeSpider的采集配置界面,具体内容以下:html

启动ForeSpider采集软件后,默认界面如图所示。ROOT任务下有已经配置好的示例模板,点击网站图标便可进行采集预览。可在任务列表选择某一任务按照需求从新配置。数据库

clipboard.png

【采集配置界面】浏览器

1.任务列表ide

clipboard.png

【任务列表】
任务对应着采集来源,一般一个采集来源对应着一个任务。如采集人民网时,人民网就是一个任务;经过百度采集全网信息时,百度就是一个任务;经过100个网址导航采集全球域名时,这100个网址导航就是一个任务。网站

2.任务属性配置
用户可根据采集需求与网站的设置选择性的配置任务属性。
任务属性配置包括登陆网站、关键词采集、浏览器采集、采集类型、禁用Cookie及Cookie设置6个部分。编码

clipboard.png

【任务属性配置】
(1)登陆网站
若是采集源的数据须要登陆才能够采集到,则须要配置登陆信息。开启登陆后,右侧会出现操做向导。
(2)关键词采集
当采集对象是搜索栏时,须要进行关键词配置。开启关键词采集后,右侧会出现操做向导。
当网站登陆与采集登陆同时开启时,可在任务属性配置栏右侧切换操做向导。url

clipboard.png

【登陆与关键词采集】
(3)浏览器采集
经过浏览器插件的方式采集数据。适用于大量JS生成且采集难度大的网页。对JS支持好,近乎于在浏览器上点击,但采集效率低。
(4)采集类型
采集类型分为默认(html)和本地文件目录两种。
(5)禁用Cookie
禁止使用Cookie解析网页。
(6)Cookie
当网站须要Cookie验证才能采集时,须要配置Cookie信息。spa

3.模板抽取配置插件

clipboard.png

【模板抽取配置】视频

删除模板、连接抽取或数据抽取。

添加连接抽取。

添加数据抽取。

(1)模板
模板经过一个示例地址,模板化同一层级的页面,从而达到批量采集的效果。一个模板对应一个层级的页面,所以同一层页面只能配置一个模板,填写一个示例地址,可是一个模板中能够建立多个连接、数据抽取,每一个连接抽取都要关联其余模板。
经过模板之间的关联,模拟网站各页面的跳转关系。经过连接抽取,抽出网页中的连接。经过数据抽取,抓取网页中的数据。
(2)模板属性配置

clipboard.png

【模板属性配置】
①抽取类型选择
抽取类型包括连接抽取和数据抽取。

clipboard.png

【抽取类型选择】
②示例地址
示例地址做为样例,成为模板,经过以该地址配置模板,能够抓取与该地址在同一层级、具备类似结构的页面数据。
任务第一个模板的示例地址默认为建立任务时填写的采集地址。

clipboard.png

【示例地址】
③高级选项
高级选项包括字符编码、文档类型、网页类型、主题过滤、未匹配处理模板5个部分。(不经常使用功能)

clipboard.png

【高级选项】
(3)连接(网址)配置

clipboard.png

【连接(网址)配置】
①关联模板
关联模板是指该“连接抽取”抽取出的连接,其下一层级页面对应的模板,也就是在浏览器中,点击连接打开的下一层页面。经过模板之间的关联,能够将网站各层级页面关联起来,在软件中造成与浏览器相同的跳转结构,从而完整的采集数据。
②连接类型
连接类型可分为普通网页连接、图片视频等资源连接和自定义类型三种。默认选择普通网页连接。
③智能过滤
智能过滤能够一键过滤出,连接地址规律相同的连接。适用于大多数状况,如过滤的不正确,可使用地址/标题过滤。
④定位过滤
定位过滤是经过内置浏览器定位,适用于所需连接都集中在一小片区域的状况。
⑤地址/标题过滤
为了在抽取的连接中去除无关连接,有两种过滤方式,配置方式相同。地址过滤是经过url地址的规律,过滤无关连接。标题过滤是经过连接标题的规律,过滤无关连接。
(4)数据属性配置

clipboard.png

【数据属性配置】
①数据表单
在ForeSpider爬虫中,表单是能够复用的,因此能够在数据表单出直接选择以前建过的表单,也能够经过表单ID来进行查找并关联数据表单。
②点击建立表达
若在数据抽取连接下,没有相应表单可供选择,可点击“建立表单”按钮,快速建立表单。可添加表单名称、字段名称,选择字段类型、表单模板。(>>快速建表/>>自由建表)
③数据存储方式
指的是数据采集时,在数据库里的存储方式。
④列表数据
识别列表用于存储表格/列表的数据,将表格/列表的不一样列对应存入不一样字段,表格/列表的不一样行分别存储为数据表的多条记录。(>>如何采集列表/表格数据)

4.采集地址
采集对象的入口地址(url地址)。好比采集整个淘宝网所有商品的信息,淘宝网首页就是入口地址。好比只采集“女装”类别的商品信息,“女装”首页就是入口地址。

clipboard.png

【采集地址】

5.内置浏览器
模拟不一样版本的浏览器。填入采集地址,可点击内置浏览器显示采集页面。

clipboard.png

【内置浏览器】

相关文章
相关标签/搜索