搜索引擎选型调研文档

Elasticsearch简介

Elasticsearch是一个实时的分布式搜索和分析引擎。它能够帮助你用史无前例的速度去处理大规模数据。git

它能够用于全文搜索，结构化搜索以及分析，固然你也能够将这三者进行组合。github

Elasticsearch是一个创建在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎，能够说Lucene是当今最早进，最高效的全功能开源搜索引擎框架。web

可是Lucene只是一个框架，要充分利用它的功能，须要使用JAVA，而且在程序中集成Lucene。须要不少的学习了解，才能明白它是如何运行的，Lucene确实很是复杂。算法

Elasticsearch使用Lucene做为内部引擎，可是在使用它作全文搜索时，只须要使用统一开发好的API便可，而不须要了解其背后复杂的Lucene的运行原理。数据库

固然Elasticsearch并不只仅是Lucene这么简单，它不但包括了全文搜索功能，还能够进行如下工做:apache

分布式实时文件存储，并将每个字段都编入索引，使其能够被搜索。json
实时分析的分布式搜索引擎。服务器
能够扩展到上百台服务器，处理PB级别的结构化或非结构化数据。网络

这么多的功能被集成到一台服务器上，你能够轻松地经过客户端或者任何你喜欢的程序语言与ES的RESTful API进行交流。架构

Elasticsearch的上手是很是简单的。它附带了不少很是合理的默认值，这让初学者很好地避免一上手就要面对复杂的理论，

它安装好了就可使用了，用很小的学习成本就能够变得颇有生产力。

随着越学越深刻，还能够利用Elasticsearch更多高级的功能，整个引擎能够很灵活地进行配置。能够根据自身需求来定制属于本身的Elasticsearch。

使用案例：

维基百科使用Elasticsearch来进行全文搜作并高亮显示关键词，以及提供search-as-you-type、did-you-mean等搜索建议功能。
英国卫报使用Elasticsearch来处理访客日志，以便能将公众对不一样文章的反应实时地反馈给各位编辑。
StackOverflow将全文搜索与地理位置和相关信息进行结合，以提供more-like-this相关问题的展示。
GitHub使用Elasticsearch来检索超过1300亿行代码。
天天，Goldman Sachs使用它来处理5TB数据的索引，还有不少投行使用它来分析股票市场的变更。

可是Elasticsearch并不仅是面向大型企业的，它还帮助了不少相似DataDog以及Klout的创业公司进行了功能的扩展。

Elasticsearch的优缺点^^:

优势

Elasticsearch是分布式的。不须要其余组件，分发是实时的，被叫作”Push replication”。
Elasticsearch 彻底支持 Apache Lucene 的接近实时的搜索。
处理多租户（multitenancy）不须要特殊配置，而Solr则须要更多的高级设置。
Elasticsearch 采用 Gateway 的概念，使得完备份更加简单。
各节点组成对等的网络结构，某些节点出现故障时会自动分配其余节点代替其进行工做。

缺点

只有一名开发者（当前Elasticsearch GitHub组织已经不仅如此，已经有了至关活跃的维护者）
还不够自动（不适合当前新的Index Warmup API）

Solr简介^*

Solr（读做“solar”）是Apache Lucene项目的开源企业搜索平台。其主要功能包括全文检索、命中标示、分面搜索、动态聚类、数据库集成，以及富文本（如Word、PDF）的处理。Solr是高度可扩展的，并提供了分布式搜索和索引复制。Solr是最流行的企业级搜索引擎，Solr4 还增长了NoSQL支持。

Solr是用Java编写、运行在Servlet容器（如 Apache Tomcat 或Jetty）的一个独立的全文搜索服务器。 Solr采用了 Lucene Java 搜索库为核心的全文索引和搜索，并具备相似REST的HTTP/XML和JSON的API。Solr强大的外部配置功能使得无需进行Java编码，即可对其进行调整以适应多种类型的应用程序。Solr有一个插件架构，以支持更多的高级定制。

由于2010年 Apache Lucene 和 Apache Solr 项目合并，两个项目是由同一个Apache软件基金会开发团队制做实现的。提到技术或产品时，Lucene/Solr或Solr/Lucene是同样的。

Solr的优缺点

优势

Solr有一个更大、更成熟的用户、开发和贡献者社区。
支持添加多种格式的索引，如：HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
Solr比较成熟、稳定。
不考虑建索引的同时进行搜索，速度更快。

缺点

创建索引时，搜索效率降低，实时索引搜索效率不高。

Elasticsearch与Solr的比较^*

当单纯的对已有数据进行搜索时，Solr更快。

当实时创建索引时, Solr会产生io阻塞，查询性能较差, Elasticsearch具备明显的优点。

随着数据量的增长，Solr的搜索效率会变得更低，而Elasticsearch却没有明显的变化。

综上所述，Solr的架构不适合实时搜索的应用。

实际生产环境测试^*

下图为将搜索引擎从Solr转到Elasticsearch之后的平均查询速度有了50倍的提高。

Elasticsearch 与 Solr 的比较总结

两者安装都很简单；
Solr 利用 Zookeeper 进行分布式管理，而 Elasticsearch 自身带有分布式协调管理功能;
Solr 支持更多格式的数据，而 Elasticsearch 仅支持json文件格式；
Solr 官方提供的功能更多，而 Elasticsearch 自己更注重于核心功能，高级功能多有第三方插件提供；
Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch。

Solr 是传统搜索应用的有力解决方案，但 Elasticsearch 更适用于新兴的实时搜索应用。

其余基于Lucene的开源搜索引擎解决方案^*

直接使用 Lucene

说明：Lucene 是一个 JAVA 搜索类库，它自己并非一个完整的解决方案，须要额外的开发工做。

优势：成熟的解决方案，有不少的成功案例。apache 顶级项目，正在持续快速的进步。庞大而活跃的开发社区，大量的开发人员。它只是一个类库，有足够的定制和优化空间：通过简单定制，就能够知足绝大部分常见的需求；通过优化，能够支持 10亿+ 量级的搜索。

缺点：须要额外的开发工做。全部的扩展，分布式，可靠性等都须要本身实现；非实时，从建索引到能够搜索中间有一个时间延迟，而当前的“近实时”(Lucene Near Real Time search)搜索方案的可扩展性有待进一步完善

Katta

说明：基于 Lucene 的，支持分布式，可扩展，具备容错功能，准实时的搜索方案。

优势：开箱即用，能够与 Hadoop 配合实现分布式。具有扩展和容错机制。

缺点：只是搜索方案，建索引部分仍是须要本身实现。在搜索功能上，只实现了最基本的需求。成功案例较少，项目的成熟度稍微差一些。由于须要支持分布式，对于一些复杂的查询需求，定制的难度会比较大。

Hadoop contrib/index

说明：Map/Reduce 模式的，分布式建索引方案，能够跟 Katta 配合使用。

优势：分布式建索引，具有可扩展性。

缺点：只是建索引方案，不包括搜索实现。工做在批处理模式，对实时搜索的支持不佳。

LinkedIn 的开源方案

说明：基于 Lucene 的一系列解决方案，包括准实时搜索 zoie ，facet 搜索实现 bobo ，机器学习算法 decomposer ，摘要存储库 krati ，数据库模式包装 sensei 等等

优势：通过验证的解决方案，支持分布式，可扩展，丰富的功能实现

缺点：与 linkedin 公司的联系太紧密，可定制性比较差

Lucandra

说明：基于 Lucene，索引存在 cassandra 数据库中

优势：参考 cassandra 的优势

缺点：参考 cassandra 的缺点。另外，这只是一个 demo，没有通过大量验证

HBasene

说明：基于 Lucene，索引存在 HBase 数据库中

优势：参考 HBase 的优势

缺点：参考 HBase 的缺点。另外，在实现中，lucene terms 是存成行，但每一个 term 对应的 posting lists 是以列的方式存储的。随着单个 term 的 posting lists 的增大，查询时的速度受到的影响会很是大

转载：http://blog.csdn.net/jameshadoop/article/details/44905643

搜索引擎选择： Elasticsearch与Solr(转)

搜索引擎选型调研文档

Elasticsearch简介

Elasticsearch的优缺点**:

优势

缺点

Solr简介*