搜索：ElasticSearch OR MySQL?

时间 2021-08-15

　　背景

　　我们开发一般的企业级Web应用，其实从本质上来说，都是对数据的增删查改进行各个维度的包装。所以说，不管你的程序如何开发，基本上，都离不开数据本身。那么，在开发企业级应用的过程中，很多同学一定遇到过这样的困惑，当完成了应用程序的基本增删查改功能之后，用户会经常吐槽当下的查询功能并不能满足自己的查询需求。这是因为，通常情况下，我们基于传统的数据库进行开发，都是需要预先去进行各种方面的考虑，然后再开发相应的查询语句。与其说是查询语句，不如说是数据过滤语句。这种时候，一个全能的搜索引擎就非常有必要了，通常我们期望它可以检索各类允许被用户查询的数据类型，充分的去已有的数据中检索用户想要的数据，并且还能进行智能排序，给用户最想要的。那么，问题来了，传统的MySQL想要实现这么一个搜索引擎，谈何容易，我该怎么办?

　　ElasticSearch or MySQL?

　　What is ElasticSearch

　　ElasticSearch是一个基于Lucene的分布式搜索引擎，业内简称ES。它提供了基于RESTful 风格的全文搜索API。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前最流行的企业级搜索引擎。另外，它的分布式设计让它天生就适合用于云计算中，并能够达到准实时搜索，而且安装使用方便，还拥有稳定，可靠，快速等特性。大家可以查阅更多的相关资料对ElasticSearch有更深入的了解。

　　Why Not MySQL

　　MySQL作为传统的关系型数据库，是当下Web应用开发中最流行的关系型数据库，没有之一。那么，很多同学会说，我对MySQL非常的了解，各种技巧，样样精通，直接用MySQL实现搜索引擎不就得了?这里我们来举个比较实际的例子，看一下到底MySQL适不适合做搜索引擎。

　　假设我要求职，这里我们有一张职位数据表jobs，我想从中检索一些我想要的工作，一般我会先想好关键词，比如舒适办公环境、有良好晋升空间等，如果用MySQL实现，你可能会这样写SQL：SELECT * FROM jobs WHERE job_desc LIKE %关键词%。这样做，理论上是可以搜到一些数据的，比如和用户输入的关键词完全匹配的就可以，但是假设jobs表中很多对工作职位的描述换了个说法，比如办公环境舒适、晋升空间良好等，颠倒了词的顺序，LIKE关键词肯定是匹配不到了。另外，LIKE是全表扫描的一个操作，如果你的数据量较小，还好说，但如果你数据量在百万、千万甚至更多的时候，耗时将是不可想象的，更别说还有恼人的分词问题，单单使用MySQL是无法解决的。

　　Why Not Sphinx + MySQL

　　当然，有很多同学会说，MySQL确实不适合直接做检索，但是我可以利用Sphinx中间件结合MySQL来做搜索引擎。确实，Sphinx也是一款比较优秀的搜索引擎。在某些方面，它很适合和MySQL做结合来使用。但是，Sphinx和ElasticSearch比起来，却逊色不少。一方面，在复杂查询逻辑下，Sphinx使用非常麻烦，在特定情况下，还需要修改Sphinx的源码才能实现需求，而我们ES天生就拥有非常丰富的Query DSL，可以满足几乎任何的检索情况;另一方面，在横向扩展和高可用方面，Sphinx实现分布式可谓是没事找抽型，它并不是做不到，而是实在是太难用了，而ES从一出生就是为分布式、集群化而生的，不仅方便横向扩展、动态增加节点，还可以轻松的和Nginx等各类中间件实现负载均衡。

　　ElasticSearch and MySQL

　　通常，我们可以使用ES来实现自己的站内搜索引擎，但是，瓦力这里还是推荐大家使用MySQL来做原始数据的存储，然后基于MySQL在上层部署我们的ES中间件来实现我们的搜索引擎。主要原因是，MySQL虽然在数据全文检索方面显得有些力不从心，但是因为它的事务功能特性，可以保证不会出现脏数据。而ES对事务方面并无建树，所以不是很适合存储原始数据。当然，你可以运用双写的策略，一方面利用MySQL保证原始数据的安全性，另一方面，利用ES的搜索力量。不过，瓦力这边更推荐的是将两个中间件直接结合起来，同时使用ES查询数据，并结合MySQL做数据的增删查改，具体实现细节，因人而异，大家还是要根据实际的需求来制定最优的解决方案。

　　总结

　　ElasticSearch作为当下越来越火爆的分布式搜索引擎以及大数据分析中间件，在互联网技术中，已经占据了半壁江山，在BAT等各大互联网公司都有不同程度的应用，成为了程序猿小朋友不可忽视的一门刚需技术。