PageProcessor是全部PageRequest请求完成后处理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)便可指定处理页面结果 此时重写OschinaProcessor.process方法便可完成解析工做java
PageScript getJavaScript()
若是这个页面须要动态交互JS,定义一个PageScript返回spa
返回:.net
java.util.regex.Pattern getNormalContain()
当启动代理Ip访问时须要重写此方法,返回正常网页应该带有的字符串标识。好比www.baidu.com带有“百度”代理
返回:code
void process(OkPage page, StartContext context, java.util.List<BasicRequest> queue, java.util.List<Proccessable> objectContainer) throws java.lang.Exception
处理一个页面orm
参数:对象
page
- 下载完成的网页blog
context
- 当前全部入口的上下文对象接口
queue
- 加入跟进Request的List容器,处理完成后queue的全部Request会被推送到抓取队列中队列
抛出:
java.lang.Exception
void processErrorPage(Page page, StartContext context) throws java.lang.Exception
处理错误页面
参数:
page
-
context
-
抛出:
java.lang.Exception