开源 java CMS - FreeCMS2.8 Web页面信息采集·

项目地址:http://www.freeteam.cn/html

Web页面信息采集web

   从FreeCMS 2.1开始支持编码

经过简单配置便可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面。url

采集规则管理htm

从左侧管理菜单点击采集规则进入。图片

添加采集规则get

在采集规则列表下方点击"添加"按钮。变量

填写相关属性后点击"保存"按钮便可。配置

采集规则属性说明下载

采集规则属性分为基本、设置、采集地址,采集属性,关键词替换。

通常状况下只要在基本选项卡填写相关属性便可完成。若是须要更多高级设置可使用后面几个选项卡。

下面针对主要属性进行解释说明。

名称:采集规则的名称。

采集到栏目:采集的信息要添加到那个栏目。

页面编码:目标网页的页面编码,默认为UTF-8。

采集地址:目标网页的地址。在基本选项卡中只能设置一个,想要设置多个能够在采集地址选项卡中设置。

采集调度:设置定时执行采集操做,这个设置很是重要,只有设置了采集调度系统才执行采集操做。

内容列表开始结束html:由于系统是经过对目标网页内容进行关键词截取来提取信息属性的,因此设置目标属性的开始结束html就很重要,必定要设置为相对比较惟一的开始结束html,这样系统才能正确的截取到目标属性。此属性主要为了截取目标页面信息列表的html.

内容地址开始结束html:根据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

内容标题开始结束html:根据上面的属性获取内容地址后,系统会抓取此内容地址的网页内容,而后根据此属性截取内容标题。内容相关属性的设置跟此属性相似,下面再也不赘述。

状态:启用状态下的采集规则,系统才会执行。

采集图片:将信息内容中的图片下载到本地。

自动审核经过:将采集的信息直接设置为已审核状态。

使用采集信息点击量:默认采集到的信息的点击量为0,设置此属性和内容点击量开始结束html后系统会截取目标信息的点击量,设置为采集后信息的点击量。

最多采集内容数:默认不限制,若是设置了此属性,系统会从采集记录中统计此采集规则已采集了多少条信息,若是超过最多采集内容数,系统将再也不采集。

将首幅图片设为标题图片:若是信息内容中有图片,则提取第一张作为标题图片,并设置信息为图片信息。

清除内容中的html标签:将信息内容中的html标签清除,保留纯文本。

当内容为空时是否采集:可设置在内容为空时不采集此信息。

使用采集信息的添加时间:默认采集到的信息的添加时间为当前时间,设置此属性和内容添加时间开始结束html后系统会截取目标信息的添加时间,设置为采集后信息的添加时间。

采集信息添加时间格式:默认格式为yyyy-MM-dd,若是目标页面的添加时间格式不一样,须要在这里设置为正确的日期格式。

采集开始时间:默认为当前时间,若是不到采集开始时间,系统是不会采集的。

采集结束时间:默认为永不结束,若是超过采集结束时间,系统是不会采集的。

内容地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置内容地址的前缀。

图片地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置图片连接地址的前缀。

内容中A标签连接地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置内容中A标签连接地址的前缀。

采集地址分为静态和动态地址,静态地址为固定的地址,动态地址通常指能够分页的地址,经过{page}来表明分页变量,能够设置从那一页采集到那一页,如http://www.freetam.cn/list_{page}.html,设置开始页数为1,结束页数为10,系统会自动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html全部页面的数据。

通常状况下咱们只采集信息的标题和内容就能够了,系统还提供采集内容描述、点击量、做者、来源、添加时间属性的功能。

经过关键词替换功能,您能够将采集到的信息里面的关键词替换为本身想要的关键词。

 

编辑采集规则

选择须要编辑的采集规则,而后点击"编辑"按钮。

注意:同时只能编辑一个采集规则。

填写相关属性后点击"保存"按钮便可。

采集

选择须要采集的采集规则,而后点击"采集"按钮。

注意:同时只能对一个采集规则进行采集操做。

删除采集规则

选择须要删除的采集规则,而后点击"删除"按钮。

提示:同时能够删除多个采集规则。

为了防止误操做,系统会提示用户是否删除,点击"肯定"完成删除操做。

查看采集记录

从左侧管理菜单点击采集记录进入。

在这里能够查看到全部web页面采集记录,您能够删除指定的采集记录,但并不会删除已采集的信息数据,选择须要删除的采集记录,而后点击"删除"按钮。

   提示:同时能够删除多个采集记录。

 

为了防止误操做,系统会提示用户是否删除,点击"肯定"完成删除操做。

相关文章
相关标签/搜索