下面带领你们来建立一个本身采集规则。html
视频版本 https://v.youku.com/v_show/id_XNDI5MTQ2NzkwMA==.html?spm=a2h3j.8428770.3416059.1web
核心只须要填好五个参数学习
地址: 顾名思义, 是咱们你们目标页面的地址 测试
采集范围: 你要采集目标页面的哪一块数据网站
采集规则: 你要怎么采spa
详情采集范围: 同上debug
详情采集规则: 同上视频
核心五部曲:htm
采集目标地址: https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtmlblog
右键 检查 便可看到页面代码
黄色区域就是咱们要采集的范围,因此咱们采集范围这么写
采集范围: .down-nr>ul>li
解释: 加上 ul li 会循环的采集每个块。达到了咱们列表采集的目的
采集规则: a:eq(1)
解释: a 选中a标签 :eq(1) 是选中 li下面第1个a标签, 注: 数字是从0开始的。 第一个a是0 第二个a是1 懂了吧?
详情采集范围 .sub-cont
解释: 看图 .sub-cont 包括了 标题和内容。 因此咱们选择这个区域
详情采集规则 title = .n_title
详情采集规则 content = .sub-nr
解释: 看图 .n_title 是文章的标题
解释: 看图 .sub-nr 使文章的内容
完成的配置
解释一下 规则名 目前默认三个值暂时够用
标签过滤怎么用呢?给你们描述一下
看这里这个只是一部分。你们自行百度,因此说胖鼠采集过滤功能 很强大。
这个例子在导入默认例子按钮里面有。你们能够导入本身品尝!
还有一个debug功能要告诉你们
给你们实战一下
上面这个debug例子是 debug 列表页面的连接。你们要使用debug功能 测试详情页面的 标题 内容是否都获取正常了 才保存这个匹配
一次花10分钟 配一次 除了目标网站改版 就能够一直使用。但愿你们花一点点时间学习一下。
有什么不懂得来找胖鼠把。祝你们用的开心用的愉快!
胖鼠采集: QQ群1: 454049736
胖鼠采集: QQ群2: 846069514