SolrCloud 经过 ZooKeeper 集群来进行协调,使一个索引进行分片,各个分片能够分布在不一样的物理节点上,多个物理分片组成一个完成的索引 Collection。SolrCloud 自动支持 Solr Replication,能够同时对分片进行复制,冗余存储。下面,咱们基于 Solr 最新的 4.4.0 版本进行安装配置 SolrCloud 集群。html
我使用的安装程序各版本以下:java
Solr: Apache Solr-4.4.0node
Tomcat: Apache Tomcat 6.0.36web
ZooKeeper: Apache ZooKeeper 3.4.5apache
各个目录说明:json
全部的程序安装在 /opt
目录下,你能够依照你的实际状况下修改安装目录。bootstrap
ZooKeeper的数据目录在: /data/zookeeper/data
api
solrhome设置在: /usr/local/solrhome
浏览器
单一SolrCloud数据集合: primarytomcat
ZooKeeper集群: 3台
SolrCloud实例: 3节点
索引分片: 3
复制因子: 2
手动将3个索引分片(Shard)的复本(Replica)分布在3个 SolrCloud 节点上
三个节点:
192.168.56.121
192.168.56.122
192.168.56.123
因为须要用到 ZooKeeper,故咱们先安装好 ZooKeeper 集群。
安装 ZooKeeper 集群以前,请确保每台机器上配置 /etc/hosts
文件,使每一个节点都能经过机器名访问。
首先,在第一个节点上将 zookeeper-3.4.5.tar.gz 解压到 /opt
目录:
$ tar zxvf zookeeper-3.4.5.tar.gz -C /opt/
建立 ZooKeeper 配置文件 zookeeper-3.4.5/conf/zoo.cfg,内容以下:
tickTime=2000initLimit=10syncLimit=5dataDir=/data/zookeeper/dataclientPort=2181server.1=192.168.56.121:2888:3888server.2=192.168.56.122:2888:3888server.3=192.168.56.123:2888:3888
ZooKeeper 的数据目录指定在 /data/zookeeper/data
,你也可使用其余目录,经过下面命令进行建立该目录:
$ mkdir /data/zookeeper/data -p
而后,初始化 myid ,三个节点编号依次为 1,2,3
,在其他节点上分别执行命令(注意修改编号)。
$ echo "1" >/data/zookeeper/data/myid
而后,在第二个和第三个节点上依次重复上面的操做。这样第一个节点中 myid 内容为1,第二个节点为2,第三个节点为3。
最后,启动 ZooKeeper 集群,在每一个节点上分别启动 ZooKeeper 服务:
$ cd /opt$ sh zookeeper-3.4.5/bin/zkServer.sh start
能够查看 ZooKeeper 集群的状态,保证集群启动没有问题:
[root@192.168.56.121 opt]# sh zookeeper-3.4.5/bin/zkServer.sh status JMX enabled by default Using config: /opt/zookeeper-3.4.5/bin/../conf/zoo.cfg Mode: follower
你能够参考《Apache Solr介绍及安装》
简单来讲,执行如下命令:
$ unzip apache-tomcat-6.0.36.zip -d /opt$ unzip solr-4.4.0.zip -d /opt$ cd /opt$ chmod +x apache-tomcat-6.0.36/bin/*.sh$ cp solr-4.4.0/example/webapps/solr.war apache-tomcat-6.0.36/webapps/$ cp solr-4.4.0/example/lib/ext/* apache-tomcat-6.0.36/webapps/solr/WEB-INF/lib/$ cp solr-4.4.0/example/resources/log4j.properties apache-tomcat-6.0.36/lib/
在其余节点上重复以上操做完成全部节点的 solr 的安装。
一、 建立一个 SolrCloud 目录,并将 solr 的 lib 文件拷贝到这个目录:
$ mkdir -p /usr/local/solrcloud/solr-lib/$ cp apache-tomcat-6.0.36/webapps/solr/WEB-INF/lib/* /usr/local/solrcloud/solr-lib/
二、 经过 bootstrap 设置 solrhome :
这里设置 solrhome 为 /usr/local/solrhome,建立该目录:
mkdir -p /usr/local/solrhome
而后,运行下面命令将 solrhome 下面的配置上传到 zookeeper:
$ java -classpath .:/usr/local/solrcloud/solr-lib/* org.apache.solr.cloud.ZkCLI -zkhost 192.168.56.121:2181,192.168.56.122:2181,192.168.56.123:2181 -cmd bootstrap -solrhome
SolrCloud 集群的全部的配置存储在 ZooKeeper。 一旦 SolrCloud 节点启动时配置了 -Dbootstrap_confdir
参数, 该节点的配置信息将发送到 ZooKeeper 上存储。基它节点启动时会应用 ZooKeeper 上的配置信息,这样当咱们改动配置时就不用一个个机子去更改了。
三、SolrCloud 是经过 ZooKeeper 集群来保证配置文件的变动及时同步到各个节点上,因此,须要将咱们本身的配置文件(在 /usr/local/solrcloud/conf/primary/conf 目录下)上传到 ZooKeeper 集群中,配置名称设为 primaryconf:
$ java -classpath .:/usr/local/solrcloud/solr-lib/* org.apache.solr.cloud.ZkCLI -zkhost 192.168.56.121:2181,192.168.56.122:2181,192.168.56.123:2181 -cmd upconfig -confdir /usr/local/solrcloud/conf/primary/conf -confname primaryconf
说明:
zkhost
指定 ZooKeeper 地址,逗号分割
/usr/local/solrcloud/conf/
目录下存在名称为 primary 的目录,该目录下的配置是后面须要用到的。
primaryconf
为在 ZooKeeper 上的配置文件名称。
/usr/local/solrcloud/conf 结构以下:
$ tree /usr/local/solrcloud/conf /usr/local/solrcloud/conf ├── primary │ └── conf │ ├── schema.xml │ └── solrconfig.xml └── solr.xml 2 directories, 3 files
schema.xml 内容以下:
<?xml version="1.0" encoding="UTF-8" ?><schema name="example" version="1.5"> <fields> <field name="namespace" type="string" indexed="true" stored="true" /> <field name="id" type="string" indexed="true" stored="true" /> <field name="productId" type="long" indexed="true" stored="true" /> <field name="category" type="long" indexed="true" stored="true" multiValued="true" /> <field name="explicitCategory" type="long" indexed="true" stored="true" multiValued="true" /> <field name="searchable" type="text_general" indexed="true" stored="false" /> <field name="_version_" type="long" indexed="true" stored="true" multiValued="false"/> <dynamicField name="*_searchable" type="text_general" indexed="true" stored="true" /> <dynamicField name="*_i" type="int" indexed="true" stored="true" /> <dynamicField name="*_is" type="int" indexed="true" stored="true" multiValued="true" /> <dynamicField name="*_s" type="string" indexed="true" stored="true" /> <dynamicField name="*_ss" type="string" indexed="true" stored="true" multiValued="true" /> <dynamicField name="*_l" type="long" indexed="true" stored="true" /> <dynamicField name="*_ls" type="long" indexed="true" stored="true" multiValued="true" /> <dynamicField name="*_t" type="text_general" indexed="true" stored="true" /> <dynamicField name="*_txt" type="text_general" indexed="true" stored="true" multiValued="true" /> <dynamicField name="*_b" type="boolean" indexed="true" stored="true" /> <dynamicField name="*_bs" type="boolean" indexed="true" stored="true" multiValued="true" /> <dynamicField name="*_d" type="double" indexed="true" stored="true" /> <dynamicField name="*_ds" type="double" indexed="true" stored="true" multiValued="true" /> <dynamicField name="*_p" type="double" indexed="true" stored="true" /> <dynamicField name="*_dt" type="date" indexed="true" stored="true" /> <dynamicField name="*_dts" type="date" indexed="true" stored="true" multiValued="true" /> <!-- some trie-coded dynamic fields for faster range queries --> <dynamicField name="*_ti" type="tint" indexed="true" stored="true" /> <dynamicField name="*_tl" type="tlong" indexed="true" stored="true" /> <dynamicField name="*_td" type="tdouble" indexed="true" stored="true" /> <dynamicField name="*_tdt" type="tdate" indexed="true" stored="true" /> </fields> <uniqueKey>id</uniqueKey> <types> <fieldType name="string" class="solr.StrField" sortMissingLast="true" /> <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" /> <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0" /> <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0" /> <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0" /> <fieldType name="tint" class="solr.TrieIntField" precisionStep="8" positionIncrementGap="0" /> <fieldType name="tlong" class="solr.TrieLongField" precisionStep="8" positionIncrementGap="0" /> <fieldType name="tdouble" class="solr.TrieDoubleField" precisionStep="8" positionIncrementGap="0" /> <fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0" /> <!-- A Trie based date field for faster date range queries and date faceting. --> <fieldType name="tdate" class="solr.TrieDateField" precisionStep="6" positionIncrementGap="0" /> <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <tokenizer class="solr.StandardTokenizerFactory" /> <filter class="solr.LowerCaseFilterFactory" /> </analyzer> <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory" /> <filter class="solr.LowerCaseFilterFactory" /> </analyzer> </fieldType> </types></schema>
solrconfig.xml 内容以下:
<?xml version="1.0" encoding="UTF-8" ?><config> <luceneMatchVersion>4.4</luceneMatchVersion> <directoryFactory name="DirectoryFactory" class="${solr.directoryFactory:solr.StandardDirectoryFactory}"/> <schemaFactory class="ClassicIndexSchemaFactory"/> <updateHandler class="solr.DirectUpdateHandler2"> <updateLog> <str name="dir">${solr.data.dir:}</str> </updateLog> </updateHandler> <requestHandler name="/get" class="solr.RealTimeGetHandler"> <lst name="defaults"> <str name="omitHeader">true</str> </lst> </requestHandler> <requestHandler name="/replication" class="solr.ReplicationHandler" startup="lazy" /> <requestDispatcher handleSelect="true" > <requestParsers enableRemoteStreaming="false" multipartUploadLimitInKB="2048" formdataUploadLimitInKB="2048" /> <httpCaching never304="true" /> </requestDispatcher> <requestHandler name="standard" class="solr.StandardRequestHandler" default="true" /> <requestHandler name="/analysis/field" startup="lazy" class="solr.FieldAnalysisRequestHandler" /> <requestHandler name="/update" class="solr.UpdateRequestHandler" /> <requestHandler name="/update/json" class="solr.JsonUpdateRequestHandler" startup="lazy" /> <requestHandler name="/admin/" class="org.apache.solr.handler.admin.AdminHandlers" /> <requestHandler name="/admin/ping" class="solr.PingRequestHandler"> <lst name="invariants"> <str name="q">solrpingquery</str> </lst> <lst name="defaults"> <str name="echoParams">all</str> <str name="df">id</str> </lst> </requestHandler> <queryResponseWriter name="json" class="solr.JSONResponseWriter"> <str name="content-type">text/plain; charset=UTF-8</str> </queryResponseWriter> <updateRequestProcessorChain name="sample"> <processor class="solr.LogUpdateProcessorFactory" /> <processor class="solr.DistributedUpdateProcessorFactory"/> <processor class="solr.RunUpdateProcessorFactory" /> </updateRequestProcessorChain> <!-- config for the admin interface --> <admin> <defaultQuery>solr</defaultQuery> <pingQuery>q=solr&version=2.0&start=0&rows=0</pingQuery> <healthcheck type="file">server-enabled</healthcheck> </admin></config>
四、建立 collection 并和配置文件关联:
$ java -classpath .:/usr/local/solrcloud/solr-lib/* org.apache.solr.cloud.ZkCLI -zkhost 192.168.56.121:2181,192.168.56.122:2181,192.168.56.123:2181 -cmd linkconfig -collection primary -confname primaryconf
说明:
建立的 collection 叫作 primary,并指定和 primaryconf 链接
五、查看 ZooKeeper 上状态
在任意一个节点的 /opt 目录下执行以下命令:
$ zookeeper-3.4.5/bin/zkCli.sh [zk: localhost:2181(CONNECTED) 0] ls /[configs,zookeeper,clusterstate.json,aliases.json,live_nodes,overseer,collections,overseer_elect][zk: localhost:2181(CONNECTED) 1] ls /configs[primaryconf,][zk: localhost:2181(CONNECTED) 1] ls /collections[primary]
查看 /configs
和 /collections
目录均有值,说明配置文件已经上传到 ZooKeeper 上了,接下来启动 solr。
一、修改每一个节点上的 tomcat 配置文件,在环境变量中添加 zkHost
变量
编辑 apache-tomcat-6.0.36/bin/catalina.sh
,添加以下代码:
JAVA_OPTS='-Djetty.port=8080 -Dsolr.solr.home=/usr/local/solrhome -DzkHost=192.168.56.122:2181,192.168.56.122:2181,192.168.56.123:2181'
在 /usr/local/solrhome/
目录建立 solr.xml :
<?xml version="1.0" encoding="UTF-8" ?><solr persistent="true" sharedLib="lib"> <cores adminPath="/admin/cores" zkClientTimeout="${zkClientTimeout:15000}" hostPort="${jetty.port:8080}" hostContext="${hostContext:solr}"></cores></solr>
说明:
-Djetty.port
:配置 solr 使用的端口,默认为 8983,这里咱们使用的是 tomcat,端口为 8080
-Dsolr.solr.home
:配置 solr/home
-zkHost
: 配置 zookeeper 集群地址,多个地址逗号分隔
最后,在 /opt 目录下启动 tomcat:
$ sh apache-tomcat-6.0.36/bin/startup.sh
经过 http://192.168.56.121:8080/solr/ 进行访问,界面如图提示 There are no SolrCores running.
,这是由于配置文件还没有配置 solrcore。
直接经过 REST 接口来建立 Collection,你也能够经过浏览器访问下面地址,以下所示:
$ curl 'http://192.168.56.121:8080/solr/admin/collections?action=CREATE&name=primary&numShards=3&replicationFactor=1'
若是成功,会输出以下响应内容:
<response><lst name="responseHeader"> <int name="status">0</int> <int name="QTime">2649</int></lst><lst name="success"> <lst> <lst name="responseHeader"> <int name="status">0</int> <int name="QTime">2521</int> </lst> <str name="core">primary_shard2_replica1</str> <str name="saved">/usr/local/solrhome/solr.xml</str> </lst> <lst> <lst name="responseHeader"> <int name="status">0</int> <int name="QTime">2561</int> </lst> <str name="core">primary_shard3_replica1</str> <str name="saved">/usr/local/solrhome/solr.xml</str> </lst> <lst> <lst name="responseHeader"> <int name="status">0</int> <int name="QTime">2607</int> </lst> <str name="core">primary_shard1_replica1</str> <str name="saved">/usr/local/solrhome/solr.xml</str> </lst></lst></response>
上面连接中的几个参数的含义,说明以下:
name
: 待建立Collection的名称
numShards
: 分片的数量
replicationFactor
: 复制副本的数量
能够经过 Web 管理页面,访问 http://192.168.56.121:8080/solr/#/~cloud
,查看 SolrCloud 集群的分片信息,如图所示:
实际上,咱们从192.168.56.121节点能够看到,SOLR 的配置文件内容,已经发生了变化,以下所示:
<?xml version="1.0" encoding="UTF-8" ?><solr persistent="true" sharedLib="lib"> <cores adminPath="/admin/cores" zkClientTimeout="20000" hostPort="${jetty.port:8080}" hostContext="${hostContext:solr}"> <core shard="shard2" instanceDir="primary_shard2_replica1/" name="primary_shard2_replica1" collection="primary"/> </cores></solr>
同时,你还能够看另外两个节点上的 solr.xml 文件的变化。
下面对已经建立的初始分片进行复制。 shard1 已经在 192.168.56.123 上,咱们复制分片到 192.168.56.121 和 192.168.56.122 上,执行以下命令:
$ curl 'http://192.168.56.121:8080/solr/admin/cores?action=CREATE&collection=primary&name=primary_shard1_replica_2&shard=shard1'$ curl 'http://192.168.56.122:8080/solr/admin/cores?action=CREATE&collection=primary&name=primary_shard1_replica_3&shard=shard1'
最后的结果是,192.168.56.123 上的 shard1,在 192.168.56.121 节点上有1个副本,名称为 primary_shard1_replica_2
,在 192.168.56.122 节点上有一个副本,名称为 primary_shard1_replica_3
。也能够经过查看 192.168.56.121 和 192.168.56.122 上的目录变化,以下所示:
$ ll /usr/local/solrhome/ total 16 drwxr-xr-x 3 root root 4096 Mar 10 17:11 primary_shard1_replica2 drwxr-xr-x 3 root root 4096 Mar 10 17:02 primary_shard2_replica1 -rw-r--r-- 1 root root 444 Mar 10 17:16 solr.xml
你还能够对 shard2 和 shard3 添加副本。shard2 已经在 192.168.56.121 上,咱们复制分片到 192.168.56.122 和 192.168.56.123 上,执行以下命令:
$ curl 'http://192.168.56.122:8080/solr/admin/cores?action=CREATE&collection=primary&name=primary_shard2_replica_2&shard=shard2'$ curl 'http://192.168.56.123:8080/solr/admin/cores?action=CREATE&collection=primary&name=primary_shard2_replica_3&shard=shard2'
shard3 已经在 192.168.56.122 上,咱们复制分片到 192.168.56.121 和 192.168.56.123 上,执行以下命令:
$ curl 'http://192.168.56.121:8080/solr/admin/cores?action=CREATE&collection=primary&name=primary_shard3_replica_2&shard=shard3'$ curl 'http://192.168.56.123:8080/solr/admin/cores?action=CREATE&collection=primary&name=primary_shard3_replica_3&shard=shard3'
咱们再次从 192.168.56.121 节点能够看到,SOLR 的配置文件内容,又发生了变化,以下所示:
<?xml version="1.0" encoding="UTF-8" ?><solr persistent="true" sharedLib="lib"> <cores adminPath="/admin/cores" zkClientTimeout="20000" hostPort="${jetty.port:8080}" hostContext="${hostContext:solr}"> <core shard="shard1" instanceDir="primary_shard1_replica2/" name="primary_shard1_replica_2" collection="primary"/> <core shard="shard2" instanceDir="primary_shard2_replica1/" name="primary_shard2_replica_1" collection="primary"/> <core shard="shard3" instanceDir="primary_shard2_replica2/" name="primary_shard2_replica_2" collection="primary"/> </cores></solr>
到此为止,咱们已经基于3个节点,配置完成了 SolrCloud 集群。最后效果以下:
必须定义 _version_
字段:
<field name="_version_" type="long" indexed="true" stored="true" multiValued="false"/>
updateHandler 节点下须要定义 updateLog:
<!-- Enables a transaction log, currently used for real-time get. "dir" - the target directory for transaction logs, defaults to the solr data directory. --> <updateLog> <str name="dir">${solr.data.dir:}</str> <!-- if you want to take control of the synchronization you may specify the syncLevel as one of the following where ''flush'' is the default. fsync will reduce throughput. <str name="syncLevel">flush|fsync|none</str> --> </updateLog>
须要定义一个 replication handler
,名称为 /replication
:
<requestHandler name="/replication" class="solr.ReplicationHandler" startup="lazy" />
须要定义一个 realtime get handler
,名称为/get
:
<requestHandler name="/get" class="solr.RealTimeGetHandler"> <lst name="defaults"> <str name="omitHeader">true</str> </lst> </requestHandler>
须要定义 admin handlers
:
<requestHandler name="/admin/" class="solr.admin.AdminHandlers" />
须要定义 updateRequestProcessorChain
:
<updateRequestProcessorChain name="sample"> <processor class="solr.LogUpdateProcessorFactory" /> <processor class="solr.DistributedUpdateProcessorFactory"/> <processor class="solr.RunUpdateProcessorFactory" /> </updateRequestProcessorChain>
cores 节点须要定义 adminPath
属性:
<cores adminPath="/admin/cores" >
<lst name=”error”> <str name=”msg”>no servers hosting shard:</str> <int name=”code”>503</int></lst>
加入下面参数,只从存活的 shards 获取数据:
shards.tolerant=true
如:http://192.168.56.121:8080/solr/primary_shard2_replica1/select?q=*%3A*&wt=xml&indent=true&shards.tolerant=true
没有打此参数,若是集群内有挂掉的 shard,将显示:
no servers hosting shard
自动建立 Collection 及初始 Shard,不须要经过 zookeeper 手动上传配置文件并关联 collection。
一、在第一个节点修改 tomcat 启动参数
JAVA_OPTS='-Djetty.port=8080 -Dsolr.solr.home=/usr/local/solrhome -DzkHost=192.168.56.122:2181,192.168.56.122:2181,192.168.56.123:2181 -DnumShards=3 -Dbootstrap_confdir=/usr/local/solrhome/primary/conf -Dcollection.configName=primaryconf '
而后启动 tomcat。这个步骤上传了集群的相关配置信息(/usr/local/solrhome/primary/conf
)到 ZooKeeper 中去,因此启动下一个节点时不用再指定配置文件了。
二、在第二个和第三个节点修改 tomcat 启动参数
JAVA_OPTS='-Djetty.port=8080 -Dsolr.solr.home=/usr/local/solrhome -DzkHost=192.168.56.122:2181,192.168.56.122:2181,192.168.56.123:2181 -DnumShards=3'
而后启动 tomcat。
这样就会建立3个 shard 分别分布在三个节点上,若是你在增长一个节点,这节点会附加到一个 shard 上成为一个 replica,而不会建立新的 shard。
本文记录了如何 zookeeper、SolrCloud 的安装和配置过程,solrcore 是经过 restapi 进行手动建立,而后又对自动建立 Collection 及初始 Shard 进行了说明。
原创文章,转载请注明: 转载自JavaChen Blog,做者:JavaChen
本文连接地址:http://blog.javachen.com/2014/03/10/how-to-install-solrcloud.html
本文基于署名2.5中国大陆许可协议发布,欢迎转载、演绎或用于商业目的,可是必须保留本文署名和文章连接。 如您有任何疑问或者受权方面的协商,请邮件联系我。