人工智能、大数据快速发展的今天,对于 TB 甚至 PB 级大数据的快速检索已然成为刚需,大型企业早已淹没在系统生成的浩瀚数据流当中。大数据技术业已集中在如何存储和处理这些海量的数据上。Elasticsearch 做为开源领域的后起之秀,从2010年至今获得飞跃式的发展。 Elasticsearch 以其开源、分布式、RESTFul API 三大优点,已经成为当下风口中“会飞的猪”。node
在个人电脑本地写了几篇 ElasticSearch 的源码解析了,回过头来想一想应该也写一篇为什么我会去看它的源码?面试
为何呢?下面我讲讲本身从接触搜索到如今看源码的过程!sql
转载请务必注明原创地址为:http://www.54tianzhisheng.cn/2018/08/24/why-see-es-code/网络
搜索,咱们首先想到的是搜索引擎:Google、百度,这个就算是接触的最先的了。app
我本身项目里面接触搜索是大二暑假那时练习的一个项目,里面用了 Solr,而后当时本身也稍微了解了下,并用在了项目里面。运维
从第一次项目里面用到了搜索,后面本身对这方面就比较感兴趣。再一次接触搜索是实习的时候进公司。第一件事情就是被老大叫的去学习搭建 Elasticsearch 集群,因而乎,电脑就装了三个虚拟机,Elasticsearch 就一个个的装了起来了。也记录了博客下来:Elasticsearch 系列文章(二):全文搜索引擎 Elasticsearch 集群搭建入门教程,当时搭建的时候 ES 的版本才刚从 2.x 升级到 5.x 呢,截止本文时间 2018.08.04,如今 ES 版本已是到 7.0 了,这版本升级是真的的快,这也说明了 ES 的活跃度很高,背后的开发工程师维护也快,侧面突出要去看它源码的重要性。分布式
当时本身在本地测试搭建集群后,给分配了另一个任务就是去了解 ES 中的自带分词、英文分词、中文分词的相同与差别、以及本身创建分词须要注意的点。因而乎:当时在公司 wiki 贡献了这篇文章:Elasticsearch 系列文章(一):Elasticsearch 默认分词器和中分分词器之间的比较及使用方法。这篇文章几乎已经把市面上全部的分词都写进去了,包括他们的相同点、不一样点、如何使用、如何自定义分词器。ide
而后还有就是我同组的一个同窗,她的任务就是 2.x 升级到 5.x 中 mapping 的大改变有哪些?后面我也看了她总结的文档,很详细!学习
在此次接触了 ES 后,由于我本身本地已经有环境了,因此本身测试了一些功能,给 ES 安装插件(IK、x-pack、支持 sql 的、),后面本身也去测试 ES 的索引、文档、REST API。测试
因为是本身对其感兴趣,因此后面就去找了些相关的视频,好比:中华石衫的《Elasticsearch 顶尖高手系列-高手进阶篇》几个系列视频教程我的感受仍是不错的,看完这几个系列估计入门确定是没有问题的。版权缘由,不提供下载连接。
另外就是《Elasticsearch 权威指南》翻译的版本,翻译尚未全,能够去看看,讲得很详细的,市面上应该尚未哪本书讲的有这么清楚,若是英文不错的能够直接啃英文吧。
还有就是官网的文档了,很是很是详细,还有 demo,2.x 版本的是有中文的官方文档,能够凑合着看。
学习新东西,要学会先看官方文档,况且 Elasticsearch 的官方文档这么详细呢!
后面实习的时候,又分配了公司中间件监控的两个模块:Elasticsearch 和 HBase 组件的监控。因而乎,再次有机会接触 Elasticsearch 了,此次主要仍是利用 Elasticsearch 自带的 REST API :_cluster/health
、_cluster/stats
、_nodes
、_nodes/stats
去获取到集群的健康信息、节点信息(内存、CPU、网络、JVM等信息)。为了作这个项目本身当时也去找了网上不少相似的文章参考经常使用的监控指标和他们是怎么作监控的。我当时的任务主要仍是采集信息,而后存到公司大项目的 influxdb 中,最后用 grafana 展现出来,后面我组的运维大佬给我看了监控大盘,界面挺酷炫的,哈哈哈,牛逼!
当时写的两篇博客:
一、Elasticsearch 系列文章(三):ElasticSearch 集群监控
二、Elasticsearch 系列文章(四):ElasticSearch 单个节点监控
取之网络,还之网络,但愿给后面作相似任务的小伙伴给点参考意见!
再就是本身搭建 ELK(ElasticSearch, Logstash, Kibana)日志分析平台,而后玩了下!
搭建环境博客:Elasticsearch 系列文章(五):ELK 实时日志分析平台环境搭建
后面就没怎么接触 ElasticSearch 了,一直忙着其余的东西。
实习辞职后,毕业出来找工做的那段日子,本身又花了一星期稍微过了一遍 《Elasticsearch 权威指南》 这本书,话说还帮我面试挺过很多关呢,哈哈哈!由于我项目里写了 Elasticsearch 的监控,若是你对 Elasticsearch 其余的不熟悉,面试官稍微问些其余关于这方面的,那就不知道就有点尴尬😅了,因此仍是准备了下。看完以后应付面试没多大的问题。
看起来我接触了 Elasticsearch 好久了,其实真正项目里面是没有用到 Elasticsearch 作过项目的,没有用到 Elasticsearch 的搜索作什么项目,因而本身当时找工做其实也打算找到工做后看能不能本身作个项目或者公司项目里面用用 Elasticsearch 呢?
结果在新公司新项目里,很快就用到了。只不过此次不是 Java 项目里面用了,而是和 GoLang 整合。不过 API 都差很少,多熟悉几回就很快上手了,关键仍是要懂 Elasticsearch 如何构造 DSL 查询语句,这样再转换成 GO 里面的 API 就快了。
还有就是公司里恰好有个中科院研究生大佬,他就写过 Elasticsearch 这块的书籍《从 lucene 到 Elasticsearch 全文检索实战》,另外他的 CSDN 博客也很火,阅读量很高,感兴趣的能够买本书支持下。
中途本身遇到 Elasticsearch 实在不会的问题也会主动去找大佬咨询,而后大佬耐心教教我这个渣渣菜鸡,在文章这里感谢下大佬这段时间的关照。
既然接触了这么久的 Elasticsearch ,项目里用过,书籍也看过,虽然还不是很熟,可是若是看看它的源码是否是会让我对它的印象更深呢?
说干就干,晚上回家就从 GitHub clone 了源码在本地,那时恰好回家,就在火车上直接用 VS code 看了会源码,也没有在 ide 里 debug 起来。
写这篇文章的时候已经把 Elasticsearch 的整个启动流程(加载读取配置、加载插件等)、如何支持 REST API 看了下,后面会在下班后回家继续阅读源码,继续分享个人源码解析的。
有想法就去干,不尝试下,怎么知道适不适合你?
其实阅读源码的主要缘由仍是本身感兴趣;另外就是这东西如今项目里确实也用到了,若是我对源码熟悉的话可能会对个人理解会更加透彻点;还有就是 Elasticsearch 确实火,公司几乎都用的,因此学习下仍是有必要的。