本教程主要对前嗅ForeSpider脚本作了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容以下:数组
一.ForeSpider脚本结构浏览器
ForeSpider脚本是前嗅自主研发的爬虫脚本语言,风格相似于JavaScript。ForeSpider脚本语言属于轻量级的脚本语言,为支持高级数据采集的规则补充,它支持对象操做,函数,数组及对象定义,借助内置的采集及系统对象几乎可以完成全部的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。ide
1.频道函数
包括“频道脚本”。3d
2.模板对象
(1)模板配置blog
包括“模板脚本”。教程
(2)连接部分ip
包括“连接抽取脚本”、“连接过滤脚本”。模板
(3)数据部分
包括“数据抽取脚本”。
(4)字段部分
包括“字段取值脚本”、“字段处理脚本”。
二.脚本与可视化配置的关系
1.各部分配置能够彻底使用脚本编写,不进行可视化操做;
2.同一步骤既进行了可视化操做的配置,又编写了脚本,则由脚本接管,可视化配置失效;
3.各步骤能够一部分使用脚本编写,一部分使用可视化操做,不重复的配置都有效,重复的配置以脚本优先接管。
三.各节点脚本之间的关系
1.上一操做层级的脚本配置区域能够编写涵盖其下面全部操做层级功能的脚本;
2.若是各层级之间的脚本有重复,以其中高层级步骤的脚本优先生效;
3.能够将脚本分散于各操做层级编写,也能够直接在最高操做层级(频道脚本)编写。
四.脚本编辑区介绍
第一级:频道配置-脚本配置
在“频道配置”时,经过使用系统内置的脚本语言对频道进行配置。
①选中该频道;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,便可建立频道脚本。
【频道脚本】
第二级:模板脚本
模板脚本能够编写整个模板配置的脚本。
①选中该模板;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,便可建立模板脚本。
【模板脚本】
第三级:连接/数据抽取脚本
1.连接文本
连接脚本能够编写整个连接抽取的脚本。
①选中该连接抽取;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,便可建立连接脚本。
【连接脚本】
2.数据抽取脚本
数据抽取脚本能够编写整个数据抽取的脚本。
①选中该数据抽取;
②点击“脚本窗口”,使其变为“浏览器窗口”;
③点击“新建”图标,选择“数据抽取脚本/数据过滤脚本”按钮,便可生成相应的代码区。
【选择数据抽取脚本】
【数据抽取脚本】
第四级:连接过滤、字段取值/清洗脚本
1.连接过滤脚本
连接过滤脚本能够编写连接地址或连接标题过滤的脚本。
①选中该连接抽取;
②勾选“地址过滤/标题过滤”复选框,并选择“脚本过滤”;
③可自动生成相应的“地址过滤/标题脚本"区。
【地址过滤脚本】
【标题过滤脚本】
2.字段取值脚本
字段取值脚本能够编写该字段取值的脚本。
①选中该字段;
②在“采集内容”处,勾选“高级取值->脚本过滤”;
③可自动生成相应的字段取值脚本区。
【字段取值脚本】
3.字段处理脚本
字段处理脚本能够编写该字段数据处理的脚本。
①选中该字段;
②在“数据清洗”处,勾选“脚本处理”;
③可自动生成相应的字段处理脚本区。
【选择字段处理脚本】
【字段处理脚本】