GuozhongCrawler系列教程 (3) PageProcessor详解

       PageProcessor是全部PageRequest请求完成后处理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)便可指定处理页面结果 此时重写OschinaProcessor.process方法便可完成解析工做java


方法详细资料

  • getJavaScript

    PageScript getJavaScript()

    若是这个页面须要动态交互JS,定义一个PageScript返回spa

    • 返回:.net


  • getNormalContain

    java.util.regex.Pattern getNormalContain()

    当启动代理Ip访问时须要重写此方法,返回正常网页应该带有的字符串标识。好比www.baidu.com带有“百度”代理

    • 返回:code


  • process

    void process(OkPage page,           StartContext context,
               java.util.List<BasicRequest> queue,
               java.util.List<Proccessable> objectContainer)
                 throws java.lang.Exception

    处理一个页面orm

    • 参数:对象

    • page - 下载完成的网页blog

    • context - 当前全部入口的上下文对象接口

    • queue - 加入跟进Request的List容器,处理完成后queue的全部Request会被推送到抓取队列中队列

    • 抛出:

    • java.lang.Exception

  • processErrorPage

    void processErrorPage(Page page,                    StartContext context)
                          throws java.lang.Exception

    处理错误页面

    • 参数:

    • page -

    • context -

    • 抛出:

    • java.lang.Exception

相关文章
相关标签/搜索