分布式搜索方案选型之二：Solandra

时间 2019-11-17

原文原文链接

我在学校项目实践时使用过solandra，它是一个基于solr和nosql数据库cassandra的分布式搜索引擎。cassandra是由facebook开源的nosql数据库，facebook的信箱搜索就是基于它实现的，它是基于列结构的，不一样与关系数据库。它的数学模型基于google的bigtable和Amazon的Dynamo，它的一个重要特性是没有对外没有中心节点，因此不会存在单点故障的问题，若是当前猪节点挂了，那么它余下的节点会进行自动投票，选举出新的节点，这种特性将来一定是全部分布式系统的特性之一。它是当前热门的nosql数据库之一。git

我看了下它的源码，它从底层上从新实现了solr索引的存储，把索引数据保存到cassandra中。它的这种实现方式给了我一个思路，就是lucene和nosql数据库结合的可行性。因为solandra的零配置和自动发现的特性，很容易就部署起来，基本上一启动服务就好了。我把原先用于测试的200万数据导浸solandra中，它彻底是黑盒模式的，你根本不知道你的数据分布到了那台机器，你能够设置副本数来冗余数据，增长可用性和容错性。github

导完数据就对它进行性能测试，发现它的第一次查询效率很是低，平均查询时间4秒，比原生的solr低了不少，我猜想这里性能的差距主要是由于它把索引存储cassandra中，本来的是直接保存到文件系统中的，如今是先从数据库读取到文件系统，多了一步，因此查询效率有所差别，不过这样的好处是真正实现了索引的分布式存储。想到若是运行当中有台机器挂了怎么办？因而就开始测试它的容灾性，结果发现，若是是一个3台机的solandra机器，挂了其中一台机仍是能够查的，可是若是挂了两台机就搜索不出东西。这是由于我把索引的副本定义为2即集群中有两份完整的索引。因为它索引不可见的黑盒特性咱们并不知道它实际上索引的分布状况，这样的话对后期索引的维护并很差。加上它查询效率的问题，最终放弃该方案。sql

solandra项目地址：https://github.com/tjake/Solandra