帝国cms采集功能使用

采集步骤:html

  一、增长采集节点;spa

  二、预览采集正则是否正确;.net

  三、开始采集;3d

  四、对采集的数据进行审核并入库;orm

  五、生成栏目及内容HTML页面。cdn

  1、增长采集节点:htm

  一、登录后台->点击大菜单“栏目管理”>“增长采集节点”;blog

  二、“选择要增长采集的栏目”(选择终极栏目);it


  三、“选择要增长采集的栏目”后进入增长节点页面;io

  四、打开要采集的列表页面:http://www.phome.net/tmp/cjpage/list.html


  点击查看“源文件”


  点击查看,列表页源代码为以下:


  五、开始设置采集节点及列表页正则:

  (1)、输入节点名称:采集实例


  (2)、采集页面地址:http://www.phome.net/tmp/cjpage/list.html


  (3)、由列表页的源代码:“”,咱们得出“内容页地址前缀”为:http://www.phome.net/tmp/cjpage/


  (4)、设置“信息页连接正则”:由列表页的源代码得出。

  图1:页面源代码


  图2:得出的信息页连接正则


  六、点击采集的内容页页面并查看源文件:http://www.phome.net/tmp/cjpage/page4.html

  图1:内容页页面


  图2:内容页源代码


  七、设置内容页内容正则:(标题及内容正则)

  (1)、标题正则:由源代码内容咱们得出“新闻标题”正则为:

  图1:页面源代码


  图2:得出的标题正则


  (2)、内容正则:由源代码内容咱们得出“新闻内容”正则为:

  图1:页面源代码


  图2:得出的新闻内容正则


  八、点击“提交”按钮便可增长节点完毕,整个表单最终效果以下:

  [点击查看]

  2、预览采集正则是否正确:

  一、上面增长采集节点后,咱们返回“管理节点”页面,以下:


  二、点击“预览”采集,进入节点正则预览与验证:

  图1:采集页面地址列表


  图2:信息连接列表


  图3:采集的内容页内容


  三、上面连接列表页及内容页内容预览无误后方可进行采集操做。

  3、开始采集:

  一、上面的采集节点正则预览无误后,咱们返回“管理节点”页面:


  二、点击上面的“开始采集”连接,开始进行采集;

  三、采集信息完成后,系统会转向采集入库页面,以下:


  4、对采集的数据进行审核并入库:


  便可完成入库操做

相关文章
相关标签/搜索
本站公众号
   欢迎关注本站公众号,获取更多信息