GuozhongCrawler开发环境搭建

搭建GuozhongCrawler开发环境有两种方式。java

一、构建源码项目方式
git

1、首先下载源码或者jar包github

源码在github:https://github.com/CreditTone/GuozhongCrawler。若是网速或者不能访问github能够访问开源中国的git地址:http://www.oschina.net/p/guozhongcrawler。ide

读者能够用git工具checkout下载。这里咱们就直接选择如下载方式了。工具

解压Crawler-master.zip,若是在开源中国git下载的zip名字略有不一样。ui

解压后以下:.net

2、下载下来后咱们打开Eclipse。新建一个空的javaProject。选择新建Java Project。项目名字这里使用GuozhongCrawler。点击finish。code

3、把src下的源码和libs目录拷贝到项目中。而且展开libs目录全选全部jar右击build Path--》Add  to  Build Path。
orm

完成后如图:ip

4、再新建一个空java项目,这个做为你的爬虫项目。这里取名为GuozhongCrawlerImpl。

如图:

5、右击GuozhongCrawlerImpl选择中Properties--》Java Build Path--》选中Projects选卡--》Add--》选中GuozhongCrawler--》点击OK--》点击OK。

如图:

6、在GuozhongCrawlerImpl中新建一个类命名为HelloGuozhong。生成main方法。而且贴入以下代码。

CrawlTask crawlTask = new CrawlTask( "百度新闻任务" );
CrawlManager.prepareCrawlTask(crawlTask)
.withStartUrl( "http://news.baidu.com/" )
.addPageProccess( new PageProcessor() {
     
     @Override
     public void process(OkPage page, StartContext context,
             List<Proccessable> result) throws Exception {
         Document doc = Jsoup.parse(page.getContent());
         System.out.println(doc.select( "title" ).text());
     }
     
     @Override
     public void proccessErrorPage(Page page, StartContext context)
             throws Exception {
         
     }
     
     @Override
     public String getTag() {
         return null ;
     }
     
     @Override
     public Pattern getNormalContain() {
         return null ;
     }
     
     @Override
     public PageScript getJavaScript() {
         return null ;
     }
})
.start();

7、运行HelloGuozhong。出现以下提示说明运行成功。

13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 开始抓取
 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/    Code:OK
 百度新闻搜索——全球最大的中文新闻平台
13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新闻任务任务完成销毁任务

二、经过加入Jar库方式搭建开发换

目前jar包只有在开源中国git库中有提供。固然也能够本身编译源码项目获得。

开源中国git:地址.http://git.oschina.net/woshidaniu/GuozhongCrawler

下载后直接将GuozhongCrawler.jar加入项目的build Path中便可。

重复第6、七步骤出现以下信息说明搭建成功。

13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 开始抓取 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/    Code:OK 百度新闻搜索——全球最大的中文新闻平台13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新闻任务任务完成销毁任务

相关文章
相关标签/搜索