让Scrapy的Spider更通用

时间 2019-11-13

原文原文链接

####1，引言python

《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件，Spider负责把网页内容提取出来，而不一样数据采集目标的内容结构不同，几乎须要为每一类网页都作定制。咱们有个设想：是否能作一个比较通用的Spider，把定制部分再进一步隔离出去？git

GooSeeker有一个爬虫群模式，从技术实现层面来考察的话，其实就是把爬虫软件作成一个被动接受任务的执行单元，给他什么任务他就作什么任务，也就是说同一个执行单元能够爬多种不一样的网站。而分配任务的是GooSeeker会员中心的爬虫罗盘，实现集中管理分布执行。github

开源Python即时网络爬虫项目一样也要尽可能实现通用化。主要抓取如下2个重点：网络

网页内容提取器从外部注入到Spider中，让Spider变通用：参看《Python即时网络爬虫：API说明》，经过API从GooSeeker会员中心得到网页内容提取器，能够充分利用MS谋数台的直观标注快速生成提取器的能力。
抓取目标网址再也不存于Spider，而是从外部得到：GooSeeker有个基于大数据平台的网址库系统，还有爬虫罗盘可观察网址的抓取状态，也有用户界面添加删除网址，把Spider进一步作成一个执行机构。

下面咱们将进一步讲解实现原理，以助于读者阅读源码。架构

####2，爬虫群模式示意图中间蓝色部分就是GooSeeker会员中心的地址库和爬虫罗盘。网址和提取规则原本应该硬编码到Spider中的，如今隔离出来，由会员中心进行管理，那么Spider就很容易作通用了。ide

####3，通用Spider的主要功能测试

地址库和提取规则隔离出来之后，Scrapy的Spider能够专一于如下流程：大数据

经过API从GooSeeker会员中心获取内容提取器：这个API的url能够硬编码到Spider中，放在start_urls列表的位置，这里原本是放目标网页地址的，如今换成一个固定的API地址，在这一点上，Spider变通用了
在第一个parse（）过程，不是解析目标网页内容，而是把API中得到内容提取器注入到gsExtractor中。
在第一个parse（）过程，为第二个API构造一个Request，目的是从GooSeeker会员中心获取要爬取的网址
在第二个parse（）过程，用目标网址构造一个Request，这才是真正的交给Loader去下载目标网页
在第三个parse（）过程，利用gsExtractor提取网页内容
在第三个parse（）过程，再次为第二个API构造一个Request，得到下一个目标网址
跳到4，一直循环，直到GooSeeker会员中心的地址库都用完了。

####4，接下来的工做网站

按照上述设想编写和调测Scrapy的通用Spider
研究是否能够更加通用，把GooSeeker的爬虫群调度都引入到Spider中，也就是在经过第一个API得到提取器以前再增长一个得到爬虫群调度任务的过程，这样，把全部Spider都变成被动接受任务的工做模式，每一个Spider是不固定抓取规则的。

####5，相关文档编码

####6，集搜客GooSeeker开源代码下载源

####7，文档修改历史