1. 项目背景html
在python 即时网络爬虫项目启动说明中咱们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而咱们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工做中。python
2. 解决方案git
为了解决这个问题,咱们把影响通用性和工做效率的提取器隔离出来,描述了以下的数据处理流程图:程序员
图中“可插拔提取器”必须很强的模块化,那么关键的接口有:github
3. 提取器代码api
可插拔提取器是即时网络爬虫项目的核心组件,定义成一个类: gsExtractor
python源代码文件及其说明文档请从 github 下载网络
使用模式是这样的:
dom
下面是这个gsExtractor类的源代码模块化
4. 用法示例spa
下面是一个示例程序,演示怎样使用gsExtractor类提取GooSeeker官网的bbs帖子列表。本示例有以下特征:
下面是源代码,均可从 github 下载
提取结果以下图所示:
5. 接下来阅读
本文已经说明了提取器的价值和用法,可是没有说怎样生成它,只有快速生成提取器才能达到节省开发者时间的目的,这个问题将在其余文章讲解,请看《Python使用xslt提取网页数据》。
6. 集搜客GooSeeker开源代码下载源
1. GooSeeker开源Python网络爬虫GitHub源
7. 文档修改历史
2016-05-27:V2.0,增补项目背景介绍和价值说明
2016-05-27:V2.1,实现了提取器类的从GooSeeker API接口获取xslt的方法
2016-05-29:V2.2,增长第六章:源代码下载源,并更换github源的网址
2016-06-03:V2.3,提取器代码更新为2.0。支持同一主题下多规则或多整理箱的状况,经过API方式获取xslt时能够传入参数“规则编号”和“整理箱名称”