6个人如何维护上千规模的大数据集群?

本文主要介绍如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。 其中 6 人的离线团队需要维护大数据集群规模如下: Hadoop 集群规模 1300+ HDFS 存量数据 40+PB,Read 3.5 PB+/天,Write 500TB+/天 14W MR Job/天,10
相关文章
相关标签/搜索