Python即时网络爬虫：API说明

时间 2019-11-08

标签 python 即时网络爬虫 api 说明栏目 Python 繁體版

原文原文链接

API说明——下载gsExtractor内容提取器html

1，接口名称

下载内容提取器python

2，接口说明

若是您想编写一个网络爬虫程序，您会发现大部分时间耗费在调测网页内容提取规则上，不讲正则表达式的语法如何怪异，即使使用XPath，您也得逐个编写和调试。git

若是要从一个网页上提取不少字段，逐个调试XPath将是十分耗时的。经过这个接口，你能够直接得到一个调测好的提取器脚本程序，是标准的XSLT程序，您只需针对目标网页的DOM运行它，就能得到XML格式的结果，全部字段一次性得到。github

这个XSLT提取器能够是您用MS谋数台生成的，也能够是其余人共享给您的，只要您有读权限，皆可下载使用。正则表达式

用于数据分析和数据挖掘的网络爬虫程序中，内容提取器是影响通用性的关键障碍，若是这个提取器是从API得到的，您的网络爬虫程序就能写成通用的框架。请参看GooSeeker的开源Python网络爬虫项目。segmentfault

3，接口规范

3.1，接口地址（URL）api

http://www.gooseeker.com/api/getextractor

3.2，请求类型（contentType）
不限网络

3.3，请求方法
HTTP GET框架

3.4，请求参数测试

key 必选：Yes；类型：String；说明：申请API时分配的AppKey
theme 必选：Yes；类型：String；说明：提取器名，就是用MS谋数台定义的规则名
middle 必选：No；类型：String；说明：规则编号，若是相同规则名下定义了多个规则，需填写
bname 必选：No；类型：String；说明：整理箱名，若是规则含有多个整理箱，需填写

注释：请参看GooSeeker网络爬虫术语解释：集搜客GooSeeker专有名词解释

3.5，返回类型（contentType）
text/xml; charset=UTF-8

3.6，返回参数
HTTP消息头中的参数，以下：

more-extractor 类型：String；说明：相同规则名下有多少个提取器。一般只在可选参数没有填写的时候须要关注这个参数，用以提示客户端有多个规则和整理箱，客户端本身决定是否要在发送请求时携带明确的参数

3.7，返回错误信息

消息层错误以HTTP 400返回，好比，URL中的参数不符合本规范
应用层错误以HTTP 200 OK返回，具体错误码用XML文件放在消息体中，XML结构以下：
```
<return>
    <code>具体的错误码</code>
</return>
```

具体的code值以下：

keyError：权限验证失败
paramError：URL中传来的参数有误，好比，参数名称或值不正确
empty：非错误状态，而是请求的提取器是不存在的，好比，某个抓取规则并无建立整理箱，则返回empty

4，用法范例（python语言）

提取器名获取参考 1分钟快速生成用于网页内容提取的xslt

示例代码：

# -*- coding: utf-8 -*-
from urllib import request

url = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名'

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

接下来我会对此API进行测试，将案例发布出来。

5，相关文档

1， Python即时网络爬虫项目: 内容提取器的定义

6，集搜客GooSeeker开源代码下载源

1， GooSeeker开源Python网络爬虫GitHub源

7，文档修改历史

1，2016-06-22：V1.0