WordPress 胖鼠采集如何自定义采集规则方法。

时间 2019-11-20

标签 wordpress 采集如何自定义规则方法栏目 Wordpress 繁體版

原文原文链接

你们好。简单的采集规则让不懂代码的同窗经过简单学习掌握爬虫技巧是胖鼠采集的核心

来源: 胖鼠采集（原文保持最新规则教程）

下面带领你们来建立一个本身采集规则。html

视频版本 https://v.youku.com/v_show/id_XNDI5MTQ2NzkwMA==.html?spm=a2h3j.8428770.3416059.1web

核心只须要填好五个参数学习

采集地址
采集范围
采集规则
详情页采集范围
详情页采集规则

地址: 顾名思义, 是咱们你们目标页面的地址测试

采集范围: 你要采集目标页面的哪一块数据网站

采集规则: 你要怎么采spa

详情采集范围: 同上debug

详情采集规则: 同上视频

核心五部曲:htm

例子

采集目标地址: https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtmlblog

右键检查便可看到页面代码

黄色区域就是咱们要采集的范围，因此咱们采集范围这么写

采集范围： .down-nr>ul>li

解释: 加上 ul li 会循环的采集每个块。达到了咱们列表采集的目的

采集规则: a:eq(1)

解释: a 选中a标签 :eq(1) 是选中 li下面第1个a标签，注: 数字是从0开始的。第一个a是0 第二个a是1 懂了吧？

详情采集范围 .sub-cont

解释: 看图 .sub-cont 包括了标题和内容。因此咱们选择这个区域

详情采集规则 title = .n_title

详情采集规则 content = .sub-nr

解释: 看图 .n_title 是文章的标题

解释: 看图 .sub-nr 使文章的内容

完成的配置

解释一下规则名目前默认三个值暂时够用

a href 取 a标签的 href(这个属性都是跳转地址) 值
xxx text 意指取 xxx的text(文本的意思)值
xxx html 意指去 xxx 那个区域的全部的html 通常用到取内容，内容比较多。且内容有排版。因此要拿到全部的原始html

标签过滤怎么用呢？给你们描述一下

a 就是去除掉全部a标签保留a标签的文本（去掉原文一些跳转规则）
-a 就是删除a标签已经a标签里面全部的内容 (不建议使用，由于有些图片是在a里面的删除a 图片也没了。)
-div 删除全部div
-.class1 删除内容中 class = class1 的标签
- #aaaa 删除文中 id = aaaa 的标签
-p 同上
-b 同上
-span 同上
-p:first 删除第一个 p标签
-p:last 删除最后一个 p标签
就是这个规律...

看这里这个只是一部分。你们自行百度，因此说胖鼠采集过滤功能很强大。

这个例子在导入默认例子按钮里面有。你们能够导入本身品尝！

还有一个debug功能要告诉你们

给你们实战一下

上面这个debug例子是 debug 列表页面的连接。你们要使用debug功能测试详情页面的标题内容是否都获取正常了才保存这个匹配

一次花10分钟配一次除了目标网站改版就能够一直使用。但愿你们花一点点时间学习一下。

有什么不懂得来找胖鼠把。祝你们用的开心用的愉快！

胖鼠采集: QQ群1: 454049736

胖鼠采集: QQ群2: 846069514

WordPress 胖鼠采集 如何自定义采集规则方法。

你们好。简单的采集规则让不懂代码的同窗经过简单学习掌握爬虫技巧是胖鼠采集的核心

来源: 胖鼠采集 （原文保持最新规则教程）

例子

WordPress 胖鼠采集如何自定义采集规则方法。

来源: 胖鼠采集（原文保持最新规则教程）