nutch与起点R3集成之笔记(三)

         4、抓取网页,创建solr索引java

        在抓取网页前,要保证起点R3处在运行状态。即 在浏览器中键入 http://127.0.0.1:880/ 后,会出现以下窗口:linux

        在linux或cygwin中运行nutch抓取网页命令为 :bin/nutch  crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ,其dir、depth、topN参数的含义网上介绍有不少,在这里不作解释。参数solr表示将抓取后的网页solr索引到一个提供solr服务的服务器索引库中,这里的127.0.0.1是指当nutch和起点R3都安装在同一台机器上,若是二者不在同一台机器上,这里的127.0.0.1要改为起点R3机器的IP。apache

      在eclipse环境里,先在apache-nutch-1.3的项目里创建一个main类为org.apache.nutch.crawl.Crawl的java运行应用程序,以下图:浏览器

对应的自变量设置为:服务器

 点击“运行”后,最后,在eclipse的控制台出现:eclipse

表示网页抓取和solr索引创建完毕。这时,能够在浏览器上经过起点R3的查询界面,实现对抓取的页面进行搜索了。以下图:url

         5、总结spa

       nutch与起点R3集成,其实与nutch和solr集成实现原理是同样:1.定义solr的索引字段,实现nutch的index与solr的index字段的映射;2.使用nutch的solrindex功能,实现将nutch采集的页面索引到solr的索引库中。索引

相关文章
相关标签/搜索