GuozhongCrawler系列教程（3） PageProcessor详解

时间 2019-11-21

标签 guozhongcrawler 系列教程 pageprocessor 详解繁體版

原文原文链接

PageProcessor是全部PageRequest请求完成后处理的接口。例如：startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)便可指定处理页面结果此时重写OschinaProcessor.process方法便可完成解析工做java

方法详细资料

getJavaScript
```
PageScript getJavaScript()
```
若是这个页面须要动态交互JS，定义一个PageScript返回spa

返回:.net

getNormalContain
```
java.util.regex.Pattern getNormalContain()
```
当启动代理Ip访问时须要重写此方法，返回正常网页应该带有的字符串标识。好比www.baidu.com带有“百度”代理

返回:code

process

void process(OkPage page,           StartContext context,
           java.util.List<BasicRequest> queue,
           java.util.List<Proccessable> objectContainer)
             throws java.lang.Exception

处理一个页面orm

参数:对象
page - 下载完成的网页blog
context - 当前全部入口的上下文对象接口
queue - 加入跟进Request的List容器，处理完成后queue的全部Request会被推送到抓取队列中队列
抛出:
java.lang.Exception

processErrorPage

void processErrorPage(Page page,                    StartContext context)
                      throws java.lang.Exception

处理错误页面

参数:
page -
context -
抛出:
java.lang.Exception

GuozhongCrawler系列教程 （3） PageProcessor详解

方法详细资料

getJavaScript

getNormalContain

process

processErrorPage

GuozhongCrawler系列教程（3） PageProcessor详解