前嗅ForeSpider教程：建立模板

时间 2019-11-09

标签 forespider 教程建立模板繁體版

原文原文链接

今天，小编为你们带来的教程是：如何在前嗅ForeSpider中建立模板。主要内容有：模板的概念，模板的配置方式，模板的高级选项，具体内容以下：浏览器

一，模板的概念ide

模板列表的层级至关于网页跳转的层级。模板一相似于网站首页，每一个模板表明了同一层级的页面，经过适当的配置，能够采集全站数据。网站

正如网站是经过连接之间的跳转，来实现网站各层级页面的链接，ForeSpider也是经过模板中的连接抽取，来实现模板之间的关联。经过抽取网页中的所有连接，再进行精准过滤，就能够既全面又精确的获取所需的所有数据。编码

正如网站经过正文/数据页展现数据，ForeSpider也是经过模板中的数据抽取，来获取所需数据。url

二，模板的配置方式xml

1.模板的建立blog

模板的建立，有以下三种状况：教程

①新建任务后：建立新的任务以后，选择页面须要抽取的内容，点击完成后，软件自动建立对应抽取内容的模板。文档

②自动建立后续模板：点击配置向导上方的“下一步”，会自动建立模板。字符编码

③手动建立模板：点击模板列表上方的添加按钮，建立模板。

2.抽取所需内容

根据内置浏览器显示的页面内容，选择本页面须要抽取的内容。

【选择页面抽取内容】

①抽取连接：须要抽取页面上的连接时，选择抽取连接以及具体的连接类型，会创建对应的连接抽取。（方式一：智能过滤/方式二：定位过滤/方式三：地址/标题过滤）

②抽取数据：须要抽取页面上的数据时，选择抽取数据，会创建对应的数据抽取。（>>如何选择表单）

例如：

须要采集新闻的正文数据，当前页面是新闻首页，聚集了新闻的连接，正文数据是经过点击新闻连接进入的，因此本页面须要抽取新闻连接。

软件预置了一些常见的连接页面场景，此时勾选连接列表，软件会自动创建一个连接抽取。

3.如何填写示例地址

（1）模板一的示例地址，自动默认为该任务的采集地址。

（2）其余模板的示例地址，自动默认为上一级模板抽取到的某个连接地址。

（3）若是默认的示例地址不符合需求，能够手动修改示例地址，方法以下：

①采集入口地址（模板一）的选择

通常选择目标网站的入口地址，好比首页。

②示例地址的选择

大多数状况下，采集地址只填写一个url地址。若是连接的页面结构和层级结构是一致的，可以套用同一套采集模板进行采集，可填写多个采集地址，中间用回车换行分隔。若是不一致，须要建立新的采集任务。

例1：采集整个淘宝网所有商品的信息，淘宝网首页就是入口地址。

例2：只采集“女装”类别的商品信息，“女装”首页就是入口地址。

例3：只采集某商品的评论信息，该商品的连接地址就是入口地址。

三，模板的高级选项

1.字符编码

默认自动识别。若是该页面未能自动识别发生乱码，须要自行选择字符编码。能够选择GBK或UTF-8。

2.文档类型

默认自动识别。能够选择采集xml文档。

适用于一个模板配置大批量网站的状况（可导入上万个采集地址），选择类型后，能够自动过滤不属于该类型的网页，从而达到快速配置的目的。

网页类型包括：所有类型、导航页、列表页、（文本）内容页、详情页、附件、未知页。

自动识别网页的语义，并采集属于某些类别的数据，过滤掉不属于某些类别的数据。（针对自动分类器使用，若有需求请联系咱们定制。）