前嗅ForeSpider脚本教程-连接抽取：应用场景及连接在源码的html标签里写脚本

时间 2019-11-11

标签 forespider 脚本教程连接抽取应用场景源码 html 标签栏目 HTML 繁體版

原文原文链接

今天，小编给你们带来的教程为：前嗅ForeSpider脚本教程中，连接抽取的应用场景，以及连接在源码的html标签里写脚本的实战教程。具体内容以下：html

一.应用场景dom

当须要手动添加连接时，可添加连接脚本。ide

在“连接脚本处”，可能用到的类为extractor 、result、url、grabDoc、dom。网站

二.连接在源码的html标签里url

连接地址可在源码中查找到。在目标网页右键，选择“查看源代码”，键盘点击“ctrl+F”，查找目标连接所在位置。目标连接存在于标签中。3d

1.连接须要循环htm

场景：好比翻页等规律相同的一系列目标连接，存在于一个大的ul标签或者div标签里。blog

示例：获取CSDN首页文章列表连接。教程

在该网页右键选择“查看源文件”，查找第一条连接的连接地址，定位目标数据位置。get

将该源码粘贴到notepad++中，选择语言为html，搜索目标数据的所在位置“ul”标签的id值。

由图可知，列表页文章连接位于每一个li中的a标签的href中。

脚本实例：暂无。

2.连接不循环

场景：获取更多连接，连接不像翻页那页具备自增性的规律。

示例：获取该网站更多的招标公告信息。

获取更多的招标公告信息，须要点击“更多”按钮。在该网页右键选择“查看源文件”，定位连接所在位置。

因<a>标签名，和父级<div>的class属性都在多处存在，所以须要再向上查找节点，直到id为tab2-list的<div>。

脚本实例：

var div = DOM.FindId("tab2-list");//先查找div

var a = DOM.FindClass("more","a",div );//从上一行找到的div开始查找，class属性为more的a标签。

url u;

u.urlname = "http://www.bgpc.gov.cn"+a.href; //拼接完整的连接地址

u.title = "更多"; //填写title

u.entryId = CHANN.id;

u.tmplId = 2;

RESULT.AddLink(u);