今天,小编为你们带来的教程是:如何在前嗅ForeSpider中抽取数据。主要内容包括:如何选择表单,如何采集列表/表格数据两大部分。具体内容以下:html
一,如何选择表单数据库
在ForeSpider爬虫中,表单是能够复用的表结构,建好的表单能够重复用于多个任务。服务器
【数据表选择页】ide
1.选择表单server
方法一:经过下拉菜单,或填写表单ID,选择已有表单。htm
方法二:快速建表,点击建立表单,进入快速建表页面,新建表单。(>>详见快速建表)blog
方法三:自由建表,点击“采集配置”-“数据建表”,点击采“采集表单”后面的。(>>详见自由建表)教程
【数据建表页】索引
2.数据存储方式文档
指的是数据采集时,在数据库里的存储方式。
①插入:默认为插入。如遇到数据库中已存在的重复数据,则再也不插入。
②仅更新:如遇到数据库中已存在的重复数据,则用最新采集的数据覆盖掉。
③追加:如字段的属性是运算字段,则能够进行字段运算。
④插入并更新:没有重复的记录则插入,有重复记录则更新。
二,如何采集列表/表格数据
识别列表用于存储表格/列表的数据,将表格/列表的不一样列对应存入不一样字段,表格/列表的不一样行分别存储为数据表的多条记录。之前嗅官网Web服务器(http://www.forenose.com/pannel/prod/server_cen.html) 为例。
1.建立表单
根据表格内容,建立一个存储表格数据的表单。在选项卡“数据建表”中,建立一个表单。(>>自由建表)
【识别列表的表结构】
(1)主键
采集表格时,表格的一行做为一条数据。因为整个表格属于同一个网页文档,而文档主键只有一个,所以不能像采集其余内容同样,取值类型选择“网页主键”。
表格的主键的变量类型,根据表格的行数长度,选择“Integer”或者“Long”。取值类型选择“空”。字段属性选择“主键字段”和“自动字段”(选择主键字段后,软件会自动选择“键值惟一”和“索引字段”。)
【主键字段的配置】
(2)其余字段
其余字段的变量类型选择“string”,取值类型选择“选区内所有文本”。(>>字段参数)
【其余字段的配置】
2.建立数据抽取
为数据抽取选择表单
【选择表单】
3.识别多值
点击“默认数据抽取”节点,按Ctrl点击任意某个单元格,按Shift再次点击扩大区域范围。
【定位表格】
点击“识别多值”,选区扩大到整个表格。点击“确认选区”。
【确认多值】
4.字段取值
主键字段不须要配置。存储表格内容的字段须要一一取值。(方法一:标准定位/方法二:特征定位)
点击数据抽取的字段,为其一一配置表格不一样列的数据。点击相应字段,按Ctrl点击第一列的任意单元格,点击“保存”。
【多值字段取值】