nutch与起点R3集成之笔记（三）

时间 2019-11-09

标签 nutch 起点 r3 集成笔记繁體版

原文原文链接

4、抓取网页，创建solr索引java

在抓取网页前，要保证起点R3处在运行状态。即在浏览器中键入 http://127.0.0.1:880/ 后，会出现以下窗口：linux

在linux或cygwin中运行nutch抓取网页命令为：bin/nutch crawl url -solr http://127.0.0.1:880 -dir test -depth 3 -topN ，其dir、depth、topN参数的含义网上介绍有不少，在这里不作解释。参数solr表示将抓取后的网页solr索引到一个提供solr服务的服务器索引库中，这里的127.0.0.1是指当nutch和起点R3都安装在同一台机器上，若是二者不在同一台机器上，这里的127.0.0.1要改为起点R3机器的IP。apache

在eclipse环境里，先在apache-nutch-1.3的项目里创建一个main类为org.apache.nutch.crawl.Crawl的java运行应用程序，以下图：浏览器

对应的自变量设置为：服务器

点击“运行”后，最后，在eclipse的控制台出现：eclipse

表示网页抓取和solr索引创建完毕。这时，能够在浏览器上经过起点R3的查询界面，实现对抓取的页面进行搜索了。以下图：url

5、总结spa

nutch与起点R3集成，其实与nutch和solr集成实现原理是同样：1.定义solr的索引字段，实现nutch的index与solr的index字段的映射；2.使用nutch的solrindex功能，实现将nutch采集的页面索引到solr的索引库中。索引