API说明——下载gsExtractor内容提取器html
下载内容提取器python
若是您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即使使用XPath,您也得逐个编写和调试。git
若是要从一个网页上提取不少字段,逐个调试XPath将是十分耗时的。经过这个接口,你能够直接得到一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能得到XML格式的结果,全部字段一次性得到。github
这个XSLT提取器能够是您用MS谋数台生成的,也能够是其余人共享给您的,只要您有读权限,皆可下载使用。正则表达式
用于数据分析和数据挖掘的网络爬虫程序中,内容提取器是影响通用性的关键障碍,若是这个提取器是从API得到的,您的网络爬虫程序就能写成通用的框架。请参看GooSeeker的开源Python网络爬虫项目。segmentfault
3.1,接口地址(URL)api
http://www.gooseeker.com/api/getextractor
3.2,请求类型(contentType)
不限网络
3.3,请求方法
HTTP GET框架
3.4,请求参数测试
key 必选:Yes;类型:String;说明:申请API时分配的AppKey
theme 必选:Yes;类型:String;说明:提取器名,就是用MS谋数台定义的规则名
middle 必选:No;类型:String;说明:规则编号,若是相同规则名下定义了多个规则,需填写
bname 必选:No;类型:String;说明:整理箱名,若是规则含有多个整理箱,需填写
注释:请参看GooSeeker网络爬虫术语解释:集搜客GooSeeker专有名词解释
3.5,返回类型(contentType)
text/xml; charset=UTF-8
3.6,返回参数
HTTP消息头中的参数,以下:
more-extractor 类型:String;说明:相同规则名下有多少个提取器。一般只在可选参数没有填写的时候须要关注这个参数,用以提示客户端有多个规则和整理箱,客户端本身决定是否要在发送请求时携带明确的参数
3.7,返回错误信息
消息层错误以HTTP 400返回,好比,URL中的参数不符合本规范
应用层错误以HTTP 200 OK返回,具体错误码用XML文件放在消息体中,XML结构以下:
<return> <code>具体的错误码</code> </return>
具体的code值以下:
keyError:权限验证失败 paramError:URL中传来的参数有误,好比,参数名称或值不正确 empty:非错误状态,而是请求的提取器是不存在的,好比,某个抓取规则并无建立整理箱,则返回empty
提取器名获取参考 1分钟快速生成用于网页内容提取的xslt
示例代码:
# -*- coding: utf-8 -*- from urllib import request url = 'http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名' resp = request.urlopen(url) content = resp.read() if(content): print(content)
接下来我会对此API进行测试,将案例发布出来。
1, GooSeeker开源Python网络爬虫GitHub源
1,2016-06-22:V1.0