分布式集群监控方案

1、调研背景 XGboost on Yarn已正式接入流量,目前须要对XGboost集群进行有效监控。html 为了保证系统的稳定性,可靠性,可运维性。 掌控集群的核心性能指标,了解集群的性能表现; 集群出现问题时及时报警,便于同窗及时修复问题; 集群重要指标值异常时进行预警,将问题扼杀在摇篮中,不用等集群真正不可用时才采起行动; 当集群出现问题时,监控系统能够帮助咱们更快的定位问题和解决问题。l
相关文章
相关标签/搜索