前嗅ForeSpider教程:建立模板

今天,小编为你们带来的教程是:如何在前嗅ForeSpider中建立模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容以下:浏览器

一,模板的概念ide

模板列表的层级至关于网页跳转的层级。模板一相似于网站首页,每一个模板表明了同一层级的页面,经过适当的配置,能够采集全站数据。网站

正如网站是经过连接之间的跳转,来实现网站各层级页面的链接,ForeSpider也是经过模板中的连接抽取,来实现模板之间的关联。经过抽取网页中的所有连接,再进行精准过滤,就能够既全面又精确的获取所需的所有数据。编码

正如网站经过正文/数据页展现数据,ForeSpider也是经过模板中的数据抽取,来获取所需数据。url

二,模板的配置方式xml

1.模板的建立blog

模板的建立,有以下三种状况:教程

①新建任务后:建立新的任务以后,选择页面须要抽取的内容,点击完成后,软件自动建立对应抽取内容的模板。文档

②自动建立后续模板:点击配置向导上方的“下一步”,会自动建立模板。字符编码

③手动建立模板:点击模板列表上方的添加按钮,建立模板。

2.抽取所需内容

根据内置浏览器显示的页面内容,选择本页面须要抽取的内容。

【选择页面抽取内容】

①抽取连接:须要抽取页面上的连接时,选择抽取连接以及具体的连接类型,会创建对应的连接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)

②抽取数据:须要抽取页面上的数据时,选择抽取数据,会创建对应的数据抽取。(>>如何选择表单)

例如:

须要采集新闻的正文数据,当前页面是新闻首页,聚集了新闻的连接,正文数据是经过点击新闻连接进入的,因此本页面须要抽取新闻连接。

软件预置了一些常见的连接页面场景,此时勾选连接列表,软件会自动创建一个连接抽取。

3.如何填写示例地址

(1)模板一的示例地址,自动默认为该任务的采集地址。

(2)其余模板的示例地址,自动默认为上一级模板抽取到的某个连接地址。

(3)若是默认的示例地址不符合需求,能够手动修改示例地址,方法以下:

①采集入口地址(模板一)的选择

通常选择目标网站的入口地址,好比首页。

②示例地址的选择

大多数状况下,采集地址只填写一个url地址。若是连接的页面结构和层级结构是一致的,可以套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。若是不一致,须要建立新的采集任务。

例1:采集整个淘宝网所有商品的信息,淘宝网首页就是入口地址。

例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。

例3:只采集某商品的评论信息,该商品的连接地址就是入口地址。

三,模板的高级选项

1.字符编码

默认自动识别。若是该页面未能自动识别发生乱码,须要自行选择字符编码。能够选择GBK或UTF-8。

2.文档类型

默认自动识别。能够选择采集xml文档。

  1. 网页类型

适用于一个模板配置大批量网站的状况(可导入上万个采集地址),选择类型后,能够自动过滤不属于该类型的网页,从而达到快速配置的目的。

网页类型包括:所有类型、导航页、列表页、(文本)内容页、详情页、附件、未知页。

  1. 主题过滤

自动识别网页的语义,并采集属于某些类别的数据,过滤掉不属于某些类别的数据。(针对自动分类器使用,若有需求请联系咱们定制。)

  1. 未匹配处理模板 适用于一个模板配置大批量网站的状况,当有页面不符合匹配的类型被过滤掉后,能够在此选择一个针对未匹配页面的处理模板,进入其余处理流程。
相关文章
相关标签/搜索