今天,小编为你们带来的教程是:如何在前嗅ForeSpider中建立模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容以下:浏览器
一,模板的概念ide
模板列表的层级至关于网页跳转的层级。模板一相似于网站首页,每一个模板表明了同一层级的页面,经过适当的配置,能够采集全站数据。网站
正如网站是经过连接之间的跳转,来实现网站各层级页面的链接,ForeSpider也是经过模板中的连接抽取,来实现模板之间的关联。经过抽取网页中的所有连接,再进行精准过滤,就能够既全面又精确的获取所需的所有数据。编码
正如网站经过正文/数据页展现数据,ForeSpider也是经过模板中的数据抽取,来获取所需数据。url
二,模板的配置方式xml
1.模板的建立blog
模板的建立,有以下三种状况:教程
①新建任务后:建立新的任务以后,选择页面须要抽取的内容,点击完成后,软件自动建立对应抽取内容的模板。文档
②自动建立后续模板:点击配置向导上方的“下一步”,会自动建立模板。字符编码
③手动建立模板:点击模板列表上方的添加按钮,建立模板。
2.抽取所需内容
根据内置浏览器显示的页面内容,选择本页面须要抽取的内容。
【选择页面抽取内容】
①抽取连接:须要抽取页面上的连接时,选择抽取连接以及具体的连接类型,会创建对应的连接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)
②抽取数据:须要抽取页面上的数据时,选择抽取数据,会创建对应的数据抽取。(>>如何选择表单)
例如:
须要采集新闻的正文数据,当前页面是新闻首页,聚集了新闻的连接,正文数据是经过点击新闻连接进入的,因此本页面须要抽取新闻连接。
软件预置了一些常见的连接页面场景,此时勾选连接列表,软件会自动创建一个连接抽取。
3.如何填写示例地址
(1)模板一的示例地址,自动默认为该任务的采集地址。
(2)其余模板的示例地址,自动默认为上一级模板抽取到的某个连接地址。
(3)若是默认的示例地址不符合需求,能够手动修改示例地址,方法以下:
①采集入口地址(模板一)的选择
通常选择目标网站的入口地址,好比首页。
②示例地址的选择
大多数状况下,采集地址只填写一个url地址。若是连接的页面结构和层级结构是一致的,可以套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。若是不一致,须要建立新的采集任务。
例1:采集整个淘宝网所有商品的信息,淘宝网首页就是入口地址。
例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。
例3:只采集某商品的评论信息,该商品的连接地址就是入口地址。
三,模板的高级选项
1.字符编码
默认自动识别。若是该页面未能自动识别发生乱码,须要自行选择字符编码。能够选择GBK或UTF-8。
2.文档类型
默认自动识别。能够选择采集xml文档。
适用于一个模板配置大批量网站的状况(可导入上万个采集地址),选择类型后,能够自动过滤不属于该类型的网页,从而达到快速配置的目的。
网页类型包括:所有类型、导航页、列表页、(文本)内容页、详情页、附件、未知页。
自动识别网页的语义,并采集属于某些类别的数据,过滤掉不属于某些类别的数据。(针对自动分类器使用,若有需求请联系咱们定制。)