ES集群故障排查记录

这两天线上的ES集群老是有问题,开始查找缘由
发现这段时间各个机器的负载都很高,原本但愿经过jstack找到一些信息,但竟然提示‘Unable to open socket file: target process not responding or HotSpot VM not loaded’,度娘提示
应该是机器好久没有重启了,没办法,只能放弃这种方式。第一步就没有走通。
继续查发现几台机器 cpu 内存 都很高, 可是硬盘不太对劲,有一台机器硬盘使用降低的厉害,而另外几台硬盘使用都是上升的,初步判断是这台机器出现问题后,开始转移分片致使,
登陆到这台机器,查找日志,发现不少报错, 直觉告诉我极可能是这台机器,拖垮了集群,报错的内容大体是,没法与主节点创建链接。继续查为何这台机器会好好的失联了呢,
继续看监控,发现网络io没有特别的变化, 应该不是大批量的访问形成的,可是线程数却增长的很厉害,忽然想到ES还有一个慢查询的日志,翻看一看,果真有几个查询,特别耗时
有的甚至达到了2分钟才返回结果,至此初步判断是这种耗时的查询,压垮了这台机器。让对应的业务修改完后,继续观察。网络

相关文章
相关标签/搜索