安装nutch2+Hbase+Slor4

介绍

Nutch 网络爬虫
Hbase 分布式存储系统
Solr搜索服务器
html

版本说明

        因为Nutch\Hbase\Solr他们都各自作在本身的版本修改,因此配置他们三者有不一样的方法.这里也是参考网络文档作了他们最新版本的配置  Nutch版本(2.2.1) apache-nutch-2.2.1-src.tar.gz;因为改版本的Nutch默认的Hbase版本是0.90.4 因此这里就使用的hbase-0.90.4.tar.gz    ;同时Nutch默认的Solr版本是3.4.0版本,但因为Solr4与三的版本变化比较大,因此这里我使用的是当前最新的4版本solr-4.4.0.tgz。
apache-nutch-2.2.1-src.tar.gz
hbase-0.90.4.tar.gz
solr-4.4.0.tgz
java

下载

Nutch 首页http://nutch.apache.org/ 下载地址apache-nutch-2.2.1-src.tar.gz
Nutch 首页http://hbase.apache.org/ 下载地址hbase-0.90.4.tar.gz
Solr    首页http://lucene.apache.org/solr/  下载地址 solr-4.4.0.tgz  
linux

安装JDK

参考: Linux安装JDK

安装Hbase

单机版的HBase
因为Hbase是一个分布式的数据库,因此咱们常常与Hadoop联系起来一块儿用。能够参考(Hbase入门——安装),但咱们在开放中其实未必有条件使用。使用这里就能够不于hadoop一块儿使用,使用这里就直接安装单击版的Hbase。来在官方的安装和使用http://hbase.apache.org/book/quickstart.htmlweb

解压hbase-0.90.4.tar.gz

先拷贝文件到/usr/local/目录下 sql

$ tar xfz hbase-0.90.4.tar.gz
$ chmod -R 777 hbase-0.90.4


编辑 conf/hbase-site.xml

在<configuration></configuration> 中添加以下内容。其实这里也能够不作修改,若是不作修改,就会把数据存放到tmp临时目录中,重启就没有数据。若是作简单的测试就不用麻烦去配置文件。
<property>
    <name>hbase.rootdir</name>
    <value>file:////usr/local/hbase-0.90.4/hbase</value>
  </property>
  <property>
    <name>hbase.zookeeper.property.dataDir</name>
    <value>/usr/local/hbase-0.90.4/zookeeper</value>
  </property>

启动Hbase

$./cp hbase-0.90.4
$ bin/start-hbase.sh


查看Logs日志,若是不报错就证实启动成功。 shell

安装Nutch

在安装Nutch与Hbase结合前,能够先参考官方文档https://wiki.apache.org/nutch/Nutch2Tutorial 
网上有不少Nutch与Mysql结合的实力,但Nutch与Hbase结合的不多,这里也是参考官方文档作了相应操做。 数据库

解压apache-nutch-2.2.1-src.tar.gz

$ tar -zxvf apache-nutch-2.2.1-src.tar.gz
$ mv apache-nutch-2.2.1-src nutch-2
$ chmod -R 777 nutch-2

修改conf/ nutch-site.xml

<property>   <name>storage.data.store.class</name>  <value>org.apache.gora.hbase.store.HBaseStore</value>  <description>Default class for storing data</description> </property>

修改ivy/ivy.xml


取消注释 apache

<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />

配置conf/gora.properties


添加
浏览器

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

安装ANT

因为nutch是基于ant安装的,使用首先要先安装ANT。安装能够参考 linux安装ant

安装Nutch

Nutch的安装须要基于网络,因为原文件中还有不少jar没有包含,因此修要运行ant来自动下载
$ cd nutch-2
$ ant
这里须要等待一段时间,这里会在nutch-2下生成runtime目录 (180M左右) ,其实就是最后的二进制目录。


在配置nutch-2/runtime/local/conf/nutch-site.xml
在添加以下配置信息

在添加以下配置信息
<property>
<name>http.agent.name</name>
<value>Your Nutch Spider</value>
</property>

<property>
<name>http.accept.language</name>
<value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value>
<description>Value of the “Accept-Language” request header field.
This allows selecting non-English language as default one to retrieve.
It is a useful setting for search engines build for certain national group.
</description>
</property>

<property>
<name>parser.character.encoding.default</name>
<value>utf-8</value>
<description>The character encoding to fall back to when no other information
is available</description>
</property>

配置抓取网址

能够参考 https://wiki.apache.org/nutch/NutchTutorial
$ cd runtime/local
$ mkdir -p urls
$ cd urls
$ vi seed.txt
在seed.txt添加
http://nutch.apache.org/

运行Nutch

$ /bin/nutch inject urls $ /bin/nutch readdb
若是不报错证实已成功安装
在Hbase测试
在运行
hbase shell
list
就能够查看到webpage表,证实已经成功建立。




安装Solr

这里使用的是Solr4

解压solr-4.4.0.tar.gz

拷贝到/usr/local目录


$ tar -zxvf solr-4.4.0.tar.gz
$ mv solr-4.4.0 solr-4
$ chmod -R 777 solr-4

替换schema.xml文件

这里下载 http://nlp.solutions.asia/wp-content/uploads/2012/08/schema.xml(schema.xml 


把下载的schema.xml文件替换掉 /usr/local/solr-4/example/solr/collection1/conf/schema.xml(这里正时solr4与nutch格式)
服务器

运行Solr

java -jar start.jar
经过浏览器访问 http://127.0.0.1:8983/solr 就能够参考相应的信息

运行Nutch提交


在nutch-2/runtime/local/bin/下面执行nutch的所有抓取过程:
inject>generate>fetch>parse>updatedb以后,能够执行solrindex的操做,用法以下:

bin/nutch inject urls
bin/nutch  generate -topN 3

 
 
 
 

  
  
  
  
  

 
bin/nutch fetch -all bin/nutch parse -all bin/nutch updatedb

bin/nutch  solrindex http://127.0.0.1:8983/solr/  -reindex


参考文档:

http://blog.chinaunix.net/uid-8345138-id-3350686.html

http://nlp.solutions.asia/?p=180#tab-3

https://wiki.apache.org/nutch/Nutch2Tutorial

http://abloz.com/hbase/book.html(Hbase中文手册)

相关文章
相关标签/搜索